【NLP】毕设学习笔记（一）：词袋模型、主题模型、词嵌入

本文链接：https://blog.csdn.net/qq_41821608/article/details/115694559

NLP分类方法历史

词袋模型（1954）
主题模型（1998）
- LSA
- pLSA
- LDA
词嵌入（word embedding）

词袋模型（1954）

相关文章：词袋模型简要概述和发展史
使用向量表示文章/句子，向量中每一个维度表示一个单词。

One-hot

性别特征：[“男”,“女”]，（这里只有两个特征，所以N=2）：

男 => 10

女 => 01

祖国特征：[“中国”，"美国，“法国”]（这里N=3）：

中国 => 100

美国 => 010

法国 => 001

运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”]（这里N=4）：

足球 => 1000

篮球 => 0100

羽毛球 => 0010

乒乓球 => 0001

所以，当一个样本为[“男”,“中国”,“乒乓球”]的时候，完整的特征数字化的结果为：

[1，0，1，0，0，0，0，0，1]

TF-IDF

term frequency-inverse document frequency（词频-逆向文件频率）
TF：单词出现次数 / 总单词数
IDF：单词t在文档d上的特殊性 log（文章总数 / 包含单词t的文章总数 + 1）

N-gram

N-Gram，N 值一般取2或者3。
以 N = 2 为例对字符串Gorbachev和Gorbechyov进行分段，可得如下结果（我们用下画线标出了其中的公共子串）。
在这里插入图片描述
两个字符串之间的距离是8 + 9 − 2 × 4 = 9
（8，9个分段 - 2 * 4个相同的分段）
显然，字符串之间的距离越小，它们就越接近。当两个字符串完全相等的时候，它们之间的距离就是0。

主题模型（1998）

词袋模型最大的不足是无法解决近义词和一词多义问题

主题模型：以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。

主题：具有相同意义单词的簇。
一个文本含有若干个主题，主题数远远小于单词个数且主题数为超参数。如果两个文本的主题相似，那么文本语义就应该相似。主题可以由若干个语义相似的单词表示，同义词（如“快乐”和“高兴”）可以表示同一个主题，而多义词如（“苹果”，苹果公司或者水果）可以表示不同的主题。

LSA

潜在语义分析LSA/LSI（Latent Semantic Analysis/Indexing）
假设一共有n个文本，n个文本中共出现m个单词，假设所有文本共含有k个主题。
在这里插入图片描述
行向量表示有m个单词，列向量表示有k个主题。
构建单词 - 主题矩阵。

行向量表示有k个主题，列向量表示有n个文章。
构建主题 - 文章矩阵。
利用上述两个矩阵T和Y的乘积可以构建单词 - 文章矩阵