tfidf关键词提取_人机对话学习——关键词提取算法学习笔记

146c68558ebe232e3084e6d5d33eb687.png
NLP--关键词提取算法(收费)-学习视频教程-腾讯课堂​ke.qq.com
ef49325bd6e4c87bc4203b2ad75c94e0.png

1f025df6a5111eb5e089fc4286c16b15.png

简介中最为重要就是说了有监督算法和无监督算法的区别,为什么有监督算法不适合于关键词提取进行了特别说明。

TF-IDF学习笔记:

知乎视频​www.zhihu.com

f8b8c06c2cdbebf4d8fed0413c34b24d.png

其实这张PPT核心就是底部这句话,过滤掉常见的词语,保留得要的词语。

TextRank学习笔记:

f3a81a53e17365a3629746636807234d.png

这张PPT主要讲得就是底部这个公式,理解了这个公式就理解整个PPT了,说白了就是一个词I被其它词J引用合计得到一个分数除以其它词J引用除词I之外即词K的分数之和,再乘以词J本身的得分,这样就得到了词I的得分。

3d99345eea1a8855b957f5b9e5119791.png

这张PPT最核心就是要理解收敛,个人认为之所以能够收敛是因为现实世界中这些词的得分就是有的,多次迭代其实是个学习的过程而已,就如同HMM也是通过统计频率来得到三个概率矩阵一样。

而窗口概念的引出使得计算成为可能。

主题模型学习笔记:

cb8465cbb2309be01de24f344e3497c4.png

主题模型与TF-IDF,TextRank不同之处就是在于不是根据词语在文档中出现的次数来确定关键词。

768cf58dd2ccdca7267b441fb8f99e2c.png

基本思路核心在于理解P(词语|文档)是怎么来的,个人理解其实是两个矩阵相乘,把主题这一维约去了。

主题模型核心代码讲解:

个人认为这块的代码逻辑并不复杂,但是首先要对gensim中corpora, models这两个包的作用要明白,而这个在视频中没有多讲,需要自学相关知识,我在学习这块知识所花费了有一天时间。

在此基础上跑通并看懂代码没有什么难度,最难的一句代码我认为就是这句了

for k, v in sorted(sim_dic.items(), key=functools.cmp_to_key(cmp), reverse=True)[:self.keyword_num]:

而最核心的就是 key=functools.cmp_to_key(cmp)的理解,cmp_to_key 将比较函数转换为关键字函数可以用于sorted

TF-IDF代码学习笔记:

学习了主题模型核心代码,再学习这块代码根本无压力,其编程思路就是TF-IDF的公式,先求TDF的值,再注TF值,然后在get_tfidf(self)中计算TF-IDF,求取关键词。

TextRank算法代码学习笔记:

这节课其实主要是讲解了jibea的analyse.textrank的源码,这个源码是相当复杂的,视频只讲解了7分钟,但是我根据视频进行调试跟踪却足足花了有一天的时间才学完,个人认为要搞懂TextRank算法对于看懂代码非常重要,结合前面讲的算法PPT,再来学习此代码会使学习效率大增,我开始就是走了弯路,否则也不会花一天时间来搞定这些代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值