2021-04-08

对词及其文档中的重要度进行表示的方法(统计模型):
词袋:词出现频率或词频向量;
n–gram袋:词对(2-gram),三元组(3-gram)等的计数;
TF-IDF向量:更好的表示词的重要度得分。
TF-IDF表示词项频率乘以逆文档频率。
词项频率:每个词在某篇文档中的出现次数。
逆文档频率:文档集合中的文档总数除以某个词出现的文档总数。
1.词袋
①统计词在给定文本中出现的次数或频率
②将某个词的出现频率除以文档中的词项总数得到归一化的词项频率(其实就是概率)结果
2.向量化
①计算归一化词项频率
②将所有的向量都转化的标准长度或维度上去
如果包含多篇文档的语料库的词库中共有n个词,尽管有些文档并不包含词库中所有的词,但是文档的每个文档向量都会包含n个值,每个词条都会被分配向量中的一个槽位,对应的是它在词库中的位置。向量中某些词条的频率会是0。
3.向量空间
向量:一个有序的数值列表,或者说这些数值是向量空间中的坐标,它描述了空间中的一个位置,或者它也可以用来确定空间中一个特定的方向和大小或距离。
空间:所有可能出现在这个空间中的向量的集合。
对于自然语言文档向量空间,向量空间的维数是整个语料库中出现的不同词的数量。
计算文档向量的相似度:欧几里得距离(不适合词频向量),余弦值计算
余弦相似度:A·B=|A| |B| × cosθ
余弦相似度为1表示两个归一化向量完全相同,他们在所有维度上都指向完全相同的方向,但两个向量的长度或大小可能不一样。
余弦相似度为0表示两个向量之间没有共享任何向量,在所有维度上都互相垂直。
余弦相似度为-1表示两个向量是反相似的,也就是两个向量指向完全相反的方向。
4.主题建模
①齐普夫定律:在给定的自然语言语料库中,任何一个词的频率与他在频率表中的排名成反比。
②将IDF重新定义为词出现在某篇文档中原始概率的对数,对于词项频率,也进行对数处理。
对于语料库D中给定的文档d里的词项t,有:
在这里插入图片描述
TF-IDF的对数是TF和IDF乘积的对数,或者词频,IDF各自求对数后求和。
TF-IDF为某个词在给定文档中的重要度赋予了一个值。
③相关度排序
两个向量余弦相似度很高,它们就被认为是相似的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值