2021-04-08

最新推荐文章于 2022-10-09 19:57:34 发布

qq_46476873

最新推荐文章于 2022-10-09 19:57:34 发布

阅读量236

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_46476873/article/details/115534488

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

对词及其文档中的重要度进行表示的方法（统计模型）：
词袋：词出现频率或词频向量；
n–gram袋：词对（2－gram），三元组（3－gram）等的计数；
TF-IDF向量：更好的表示词的重要度得分。
TF-IDF表示词项频率乘以逆文档频率。
词项频率：每个词在某篇文档中的出现次数。
逆文档频率：文档集合中的文档总数除以某个词出现的文档总数。
1.词袋
①统计词在给定文本中出现的次数或频率
②将某个词的出现频率除以文档中的词项总数得到归一化的词项频率（其实就是概率）结果
2.向量化
①计算归一化词项频率
②将所有的向量都转化的标准长度或维度上去
如果包含多篇文档的语料库的词库中共有n个词，尽管有些文档并不包含词库中所有的词，但是文档的每个文档向量都会包含n个值，每个词条都会被分配向量中的一个槽位，对应的是它在词库中的位置。向量中某些词条的频率会是0。
3.向量空间
向量：一个有序的数值列表，或者说这些数值是向量空间中的坐标，它描述了空间中的一个位置，或者它也可以用来确定空间中一个特定的方向和大小或距离。
空间：所有可能出现在这个空间中的向量的集合。
对于自然语言文档向量空间，向量空间的维数是整个语料库中出现的不同词的数量。
计算文档向量的相似度：欧几里得距离(不适合词频向量)，余弦值计算
余弦相似度：A·B=|A| |B| × cosθ
余弦相似度为1表示两个归一化向量完全相同，他们在所有维度上都指向完全相同的方向，但两个向量的长度或大小可能不一样。
余弦相似度为0表示两个向量之间没有共享任何向量，在所有维度上都互相垂直。
余弦相似度为－1表示两个向量是反相似的，也就是两个向量指向完全相反的方向。
4.主题建模
①齐普夫定律：在给定的自然语言语料库中，任何一个词的频率与他在频率表中的排名成反比。
②将IDF重新定义为词出现在某篇文档中原始概率的对数，对于词项频率，也进行对数处理。
对于语料库D中给定的文档d里的词项t，有：
在这里插入图片描述
TF-IDF的对数是TF和IDF乘积的对数，或者词频，IDF各自求对数后求和。
TF-IDF为某个词在给定文档中的重要度赋予了一个值。
③相关度排序
两个向量余弦相似度很高，它们就被认为是相似的