传统的文本表征、词向量、关键词提取技术(one-hot、TFIDF、TextRank、LSA、PLSA、LDA )。

1.TF-TFIDF
TFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。 比如整个文档集中有10000个单词,计算每个文档中这10000个单词的TFIDF,将这10000个单词的TFIDF作为特征,使用统计机器学习的算法进行训练,得到模型,并进行预测。
TF衡量单词在一个文本中出现的次数,IDF衡量单词在整个文档集中出现的次数。
在这里插入图片描述
其中w代表单词,Di代表文档。
在这里插入图片描述
其中N代表文档集的数量,w单词,Di代表文档
在这里插入图片描述
2. TextRank
用来衡量词对文档的重要性,TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系(类似于N-gram语法模型)。具体实现:设置一个长度为N的滑动窗口,所有在这个窗口之内的词都视作词结点的相邻结点;则TextRank构建的词图为无向图。
在这里插入图片描述
TextRank用于关键词提取的算法如下:

1)把给定的文本T按照完整句子进行分割,
在这里插入图片描述
2)对于每个句子Si属于T,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即
,其中 ti,j 是保留后的候选关键词。
在这里插入图片描述
3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。(考虑到不同词对可能有不同的共现(co-occurrence),TextRank将共现作为无向图边的权值。)
4)根据上面公式,迭代传播各节点的权重,直至收敛。
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
在这里插入图片描述
S(B)应计算为(1-0.85)+0.85*((1/1)*1+(1/1)*1+(1/3)*1+(1/2)*1)。ws初始为1

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值