27、自然语言处理中的语义分析与文本分类实战-CSDN博客

本文链接：https://blog.csdn.net/hp777/article/details/151098013

自然语言处理中的语义分析与文本分类实战

1. spaCy预训练词向量的使用

在自然语言处理（NLP）中，spaCy是一个强大的工具，它提供了预训练的词向量，可用于多种文本分析任务。以下是如何使用spaCy的预训练词向量的示例代码：

for token in utt3:
    print( "Token is: ",token, "OOV: ", token.is_oov, 
    "Token has vector:", token.has_vector)

执行上述代码后，会输出每个词的信息，例如：

Token is: You OOV: False Token has vector: True
Token is: went OOV: False Token has vector: True
Token is: there OOV: False Token has vector: True
Token is: afskfsd OOV: True Token has vector: False
Token is: OOV: False Token has vector: True

这里，“OOV” 表示 “Out of Vocabulary”，即该词是否在预训练词汇表之外。如果 is_oov 为 True ，则表示该词不在词汇表中，通常也没有对应的词向量。

2. spaCy的语义相似度方法

在spaCy中，每个容器类型的对象（如Doc、Span和Token）都有一个 similarity 方法，用于计算与其他容器对象的语义相似度。以下是一些示例：
- 计算两个Span对象的相似度 ：

utt4 = nlp("I visited England.")
utt5 = nlp("I went to London.")
print(utt4[1:3].similarity(utt5[1:4]))

输出结果为：

0.45464012026786804

比较两个Token对象的相似度 ：

print(utt4[2].similarity(utt5[3]))

输出结果为：

0.6339874267578125

计算两个句子（Doc对象）的相似度 ：

print(utt4.similarity(utt5))

输出结果为：

0.8206949942253569

相似度得分范围从0到1，0表示不相关，1表示完全相同。可以看到，“I visited England.” 和 “I went to London.” 这两个句子的相似度较高。

3. 可视化词向量

为了更好地理解词向量之间的关系，可以使用主成分分析（PCA）将高维的词向量投影到二维空间进行可视化。以下是具体步骤和代码：
1. 导入必要的库 ：

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import numpy as np
import spacy

加载spaCy模型并创建Doc对象 ：

nlp = spacy.load( "en_core_web_md" )
vocab = nlp( "cat dog tiger elephant bird monkey lion 
cheetah burger pizza food cheese wine salad noodles 
macaroni fruit vegetable" )
words = [word.text for word in vocab]

创建词向量矩阵 ：

vecs = np.vstack([word.vector for word in vocab if word.has_vector])

使用PCA进行降维 ：

pca = PCA(n_components=2)
vecs_transformed = pca.fit_transform(vecs)

绘制散点图 ：

plt.figure(figsize=(20,15))
plt.scatter(vecs_transformed[:,0], vecs_transformed[:,1])
for word, coord in zip(words, vecs_transformed):
    x,y = coord
    plt.text(x,y,word, size=15)
plt.show()

通过这个可视化结果，可以看到spaCy的词向量能够将不同语义类别的词分组。例如，动物类的词之间距离较近且分布均匀，而食物类的词也形成了各自的组。

4. 《福尔摩斯探案集》的词向量分析

可以使用《福尔摩斯探案集》的文本来进行词向量分析，具体步骤如下：
1. 读取 Adventures_Holmes.txt 文本文件。
2. 将文件内容保存到字符串对象 holmes_doc 中。
3. 为选定的两个文本绘制语义图。
4. 对这两个文本进行相似度分析，观察结果。

5. 高级语义相似度方法

虽然spaCy的 similarity 方法可以计算语义相似度得分，但还有一些高级方法可以用于计算单词、短语和句子的相似度。

5.1 理解语义相似度

语义相似度是一种基于文本语义来定义文本之间距离的度量。常用的距离函数有欧几里得距离和余弦距离。

5.2 欧几里得距离

欧几里得距离在某些情况下可能会出现问题。例如，当添加与某个词语义相似的词时，虽然语义不变，但由于向量的几何性质，距离可能会变得很大。

5.3 余弦距离和余弦相似度

余弦相似度的最大得分是1，当两个向量的夹角为0度时取得；当夹角为90度时，相似度为0。spaCy使用余弦相似度来计算语义相似度。

需要注意的是，在计算语义相似度时，并非句子中的所有词对语义的影响都相同。因此，需要找到合适的关键词来进行比较。

6. 基于语义相似度的文本分类

可以通过确定两个句子的语义相似度，将文本分类到预定义的类别中，或者筛选出相关的文本。以下是一个电商网站用户评论筛选的案例：

utt6 = nlp( "I purchased a science fiction book last 
week. I loved everything related to this fragrance: 
light, floral and feminine… I purchased a bottle of 
wine. " )
key = nlp( "perfume" )
for utt in utt6.sents:
    print(utt.similarity(key))

输出结果为：

0.2950337433100861
0.4292321445243577
0.4216416633742172

可以看到，第二个句子与 “perfume” 的相似度较高，因为它包含了 “fragrance” 这个词。但第三个句子也有一定的相似度，可能是因为包含了 “bottle” 这个词。

7. 关键短语提取

为了提高文本分类的性能，可以提取句子中的关键短语进行比较。在spaCy中，可以使用 doc.noun_chunks 方法来提取名词短语。以下是示例代码：

utt7 = nlp( "My beautiful and cute dog jumped over 
the fence" )
print(list(utt7.noun_chunks))

输出结果为：

[My beautiful and cute dog, the fence]

然后，可以将提取的名词短语与搜索关键词进行比较：

for utt in utt7.sents:
    nchunks = [nchunk.text for nchunk in utt.noun_chunks]
    nchunk_utt = nlp(" ".join(nchunks))
    print(nchunk_utt.similarity(key))

8. 命名实体提取和比较

在某些情况下，提取专有名词（命名实体）进行比较可能更有帮助。以下是一个示例：

utt8 = nlp( "Google Search, often referred as Google, 
is the most popular search engine nowadays. It answers 
a huge volume of queries every day." )
utt9 = nlp( "Microsoft Bing is another popular search 
engine. Microsoft is known by its star product 
Microsoft Windows, a popular operating system sold over 
the world." )
utt10 = nlp( "The Dead Sea is the lowest lake in the 
world, located in the Jordan Valley of Israel. It is 
also the saltiest lake in the world." )

print(utt8.ents)
print(utt9.ents)
print(utt10.ents)

输出结果为：

(Google Search, Google, every day)
(Microsoft Bing, Microsoft, Microsoft Windows)
(The Dead Sea, the Jordan Valley, Israel)

然后，可以计算这些命名实体之间的相似度：

ents1 = [ent.text for ent in utt8.ents]
ents2 = [ent.text for ent in utt9.ents]
ents3 = [ent.text for ent in utt10.ents]
ents1 = nlp(" ".join(ents1))
ents2 = nlp(" ".join(ents2))
ents3 = nlp(" ".join(ents3))

print(ents1.similarity(ents2))
print(ents1.similarity(ents3))
print(ents2.similarity(ents3))

结果显示，前两个段落的相似度较高，因为它们都与大型科技公司有关；而第三个段落与前两个段落的相似度较低。

以下是一个简单的流程图，展示了文本分类的基本流程：

graph LR
    A[读取文本] --> B[词向量分析]
    B --> C[计算相似度]
    C --> D[文本分类]
    D --> E[结果分析]

通过以上方法，可以更深入地理解文本的语义，提高文本分析和分类的准确性。

9. 《福尔摩斯探案集》的进一步语义分析

可以在《福尔摩斯探案集》上进一步应用关键短语提取和命名实体比较的技术，具体步骤如下：
1. 从小说中提取三个 “代表性文本”。
2. 进行关键短语提取，以提高与之前分析结果的相似度。
3. 提取和比较命名实体，以进一步提高语义分析的性能。
4. 绘制语义图，展示这些实体和关键词之间的关系。
5. 讨论和解释分析结果。

10. 文本分类和情感分析工作坊

接下来将介绍如何将NLP技术应用于文本分类和情感分析。主要涉及以下内容：
1. 文本分类概念 ：学习NLP中文本分类的概念，以及spaCy的NLP管道如何用于文本分类器的训练。
2. 情感分析实现 ：以电影评论为例，演示如何使用spaCy实现情感分析。
3. 神经网络和相关技术 ：介绍人工神经网络（ANN）的概念，以及TensorFlow和Keras技术。
4. LSTM顺序建模 ：以电影评论为例介绍LSTM技术的顺序建模方案，将这些技术集成用于文本分类和电影情感分析。

11. 技术要求

在开始工作坊之前，请确保安装以下Python包：
| 包名 | 版本号 |
| ---- | ---- |
| Python | 3.11.9 |
| spacy | 3.4.4 |
| keras | 3.5.0 |
| tensorflow | 2.17.0 |
| numPy | 1.26.4 |
| pandas | 2.2.2 |
| matplotlib | 3.9.2 |

如果未安装这些包，可以使用 pip install xxx 命令进行安装。

12. 文本分类概述

12.1 什么是文本分类

文本分类是将一组预定义的标签分配给文本的任务。传统上通过手动标注进行分类，但现在越来越多地使用机器学习技术，通过已知的示例（训练样本）来训练分类系统，以对未知的文本进行分类。常见的机器学习方法包括LSTM技术。

文本分类的类型有多种，例如：
- 单标签分类：每个文本只分配一个标签。
- 多标签分类：每个文本可以分配多个标签。

以下是文本分类的基本流程：

graph LR
    A[收集文本数据] --> B[数据预处理]
    B --> C[特征提取]
    C --> D[模型训练]
    D --> E[模型评估]
    E --> F[预测未知文本]

通过以上内容，我们可以看到自然语言处理在文本分析、分类和情感分析等方面有着广泛的应用。通过合理使用spaCy、TensorFlow和Keras等工具，可以有效地处理和分析文本数据。

自然语言处理中的语义分析与文本分类实战

13. spaCy和LSTM技术的文本分类

文本分类是情感分析应用中的重要组成部分。在这部分，将介绍如何使用spaCy的 TextCategorizer 组件结合TensorFlow Keras API进行文本分类。

13.1 文本分类基础概念

文本分类是NLP中的基础任务，其目标是将文本分配到预定义的类别中。在使用机器学习进行文本分类时，通常需要以下步骤：
1. 数据准备 ：收集和整理文本数据，并进行标注。
2. 特征提取 ：将文本转换为机器学习模型可以处理的特征。
3. 模型训练 ：使用训练数据训练分类模型。
4. 模型评估 ：使用测试数据评估模型的性能。
5. 预测应用 ：使用训练好的模型对未知文本进行分类。

以下是一个简单的表格，总结了这些步骤：
| 步骤 | 描述 |
| ---- | ---- |
| 数据准备 | 收集和标注文本数据 |
| 特征提取 | 将文本转换为特征 |
| 模型训练 | 使用训练数据训练模型 |
| 模型评估 | 使用测试数据评估模型 |
| 预测应用 | 对未知文本进行分类 |

13.2 spaCy文本分类器的模型训练

spaCy的 TextCategorizer 组件可以用于文本分类。以下是一个简单的示例代码，展示了如何使用spaCy进行文本分类器的训练：

import spacy
from spacy.training import Example

# 加载spaCy模型
nlp = spacy.load("en_core_web_sm")

# 创建TextCategorizer组件
textcat = nlp.add_pipe("textcat_multilabel")

# 添加标签
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

# 训练数据
train_data = [
    ("This movie is great!", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
    ("This movie is terrible!", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}})
]

# 训练模型
for i in range(10):
    for text, annotations in train_data:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, annotations)
        nlp.update([example])

# 预测
doc = nlp("This movie is amazing!")
print(doc.cats)

在这个示例中，我们首先加载了一个spaCy模型，然后添加了一个 TextCategorizer 组件，并为其添加了 “POSITIVE” 和 “NEGATIVE” 两个标签。接着，我们使用一些训练数据对模型进行训练，并在最后对一个新的文本进行了预测。

13.3 情感分析与spaCy

情感分析是文本分类的一个具体应用，其目标是判断文本的情感倾向（如积极、消极或中性）。以电影评论为例，我们可以使用spaCy来实现情感分析。以下是一个简单的流程图，展示了使用spaCy进行情感分析的基本流程：

graph LR
    A[收集电影评论数据] --> B[数据预处理]
    B --> C[使用spaCy进行文本分类]
    C --> D[判断情感倾向]
    D --> E[输出结果]

14. 基于LSTM技术的顺序建模

在自然语言处理中，LSTM（长短期记忆网络）是一种常用的循环神经网络（RNN），可以处理序列数据。以下是如何使用LSTM技术进行文本分类和情感分析的步骤：

14.1 引入必要的库

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

14.2 准备数据

# 示例数据
reviews = ["This movie is great", "This movie is terrible"]
labels = [1, 0]

# 分词器
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(reviews)
sequences = tokenizer.texts_to_sequences(reviews)

# 填充序列
max_length = 10
padded_sequences = pad_sequences(sequences, maxlen=max_length)

14.3 构建模型

model = Sequential([
    Embedding(input_dim=1000, output_dim=16, input_length=max_length),
    LSTM(16),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

14.4 训练模型

model.fit(padded_sequences, labels, epochs=10)

14.5 预测

new_review = ["This movie is amazing"]
new_sequence = tokenizer.texts_to_sequences(new_review)
new_padded_sequence = pad_sequences(new_sequence, maxlen=max_length)
prediction = model.predict(new_padded_sequence)
print(prediction)

通过以上步骤，我们可以使用LSTM技术对电影评论进行情感分析。

15. 总结

本文介绍了自然语言处理中的语义分析和文本分类技术，包括spaCy的预训练词向量使用、语义相似度计算、高级语义相似度方法、文本分类和情感分析等内容。同时，还通过《福尔摩斯探案集》的文本分析和电影评论的情感分析示例，展示了这些技术的实际应用。通过合理使用spaCy、TensorFlow和Keras等工具，可以有效地处理和分析文本数据，提高文本分类和情感分析的准确性。

在实际应用中，可以根据具体的任务需求选择合适的方法和技术。例如，对于简单的文本分类任务，可以使用spaCy的 TextCategorizer 组件；对于复杂的序列数据处理任务，可以使用LSTM技术。同时，还可以结合关键短语提取和命名实体比较等技术，进一步提高文本分析的性能。