提取关键短语tutorial笔记

 

这是《AutomaticKeyphrase Extraction:A Survey of the State of th Art》一文的笔记。

 

影响短语提取的四个要素

1.        短语的长度

2.        文档结构的一致性

3.        文章主题的变化性

4.        短语之间主题的关联性


短语提取方法


短语提取的步骤:

1.        提取出候选词语

2.        使用(非)监督学习方法进行筛选

 


选择候选词语:


1.        去除停用词

2.        词性标注

3.        使用n-gram选择候选词

4.        筛选掉不符合lexico-syntactic模式的短语


监督学习方法:


1.        任务重构(task reformulation)

2.        特征设计(feature design)


任务重构:


把问题重铸(recast)为二元分类问题:是否是候选词。


特征:


Within-Collection特征:


1.        tf*idf

2.        短语距离(这个词语与它第一次出现的位置的距离)

3.        监督式短语(在训练集里这个词语作为关键短语的次数)

4.        短语的长度和扩展性(这个词语第一次出现的位置和最后出现的位置之间有多少个word)


结构性特征:


短语在文档里所属的部分(摘要、正文、结尾等)。经验表明这个特征对于关键短语提取是有用的。


句法特征:

词性序列、后缀序列等。经验表明这个特征对于关键短语提取是无用的。


外部机遇资源的特征(External Resource-Based Features):


例如:一个短语被认为是候选的,如果它经常在Wikipedia里被当做一个链接。

           一个短语被认为是候选的,如果它出现在搜索引擎的搜索日志里。

 


非监督学习方法:


基于图的排序:


比如TextRank算法,但是它不保证在提取出的短语里,包含了所有的主题。

但是由于它要对整篇文档构建一个图,所以很耗费资源。


基于主题聚类:


KeyCluster:


基于Wikipedia和co-occurrence-based statistics聚类,并假设聚出来的类对应文档的主题,在每个类里选取中心短语作为此篇文档的关键短语。

效果比TextRank好,但是它本质上给了每个主题相同的权重。


Topical PageRank(TPR):


使用LDA获得主题,在获得的主题集里,对每个主题运行一遍TextRank算法。最后每个候选词的得分,是这个候选词在每个主题里的得分,乘以该主题的权重(概率),的和。

效果比TextRank和tif*idf好。


CommunityCluster:


给重要的主题更多的权重,但是不像TPR,它保留重要主题的所有候选词。

在不损失准确率的情况下,召回率比TextRank和tf*idf还有Yahoo ! term extractor高。


即时学习:


构建三个图:word-word,sentence-word,sentence-sentence。


语言模型:


有两个特征项:phraseness和informativeness。

根据训练集,由KL距离计算候选词的权重并排序。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TensorFlow是一个开源的机器学习框架,用于构建和训练各种机器学习模型。TensorFlow提供了丰富的编程接口和工具,使得开发者能够轻松地创建、训练和部署自己的模型。 TensorFlow Tutorial是TensorFlow官方提供的学习资源,旨在帮助新手快速入门。该教程详细介绍了TensorFlow的基本概念、常用操作和各种模型的构建方法。 在TensorFlow Tutorial中,首先会介绍TensorFlow的基本工作原理和数据流图的概念。通过理解数据流图的结构和运行过程,可以更好地理解TensorFlow的工作方式。 接下来,教程会详细介绍TensorFlow的核心组件,例如张量(Tensor)、变量(Variable)和操作(Operation)。这些组件是构建和处理模型的基本元素,通过使用它们可以创建复杂的神经网络和其他机器学习模型。 在教程的后半部分,会介绍如何使用TensorFlow构建不同类型的模型,例如深度神经网络(DNN)、卷积神经网络(CNN)和递归神经网络(RNN)。每个模型都会有详细的代码示例和实践任务,帮助学习者掌握相关知识和技能。 此外,教程还包含了关于模型的训练、评估和优化的内容,以及如何使用TensorBoard进行可视化和调试。 总结来说,TensorFlow Tutorial提供了全面而详细的学习资源,通过学习该教程,可以快速入门TensorFlow,并且掌握构建和训练机器学习模型的方法。无论是初学者还是有一定经验的开发者,都可以从中受益并扩展自己的机器学习技能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值