文本关键词提取小结

本文对关键词抽取的有监督、半监督、无监督方法进行了总结,探讨了分词、统计信息、复杂网络、图模型和主题模型在关键词抽取中的应用,并介绍了LDA主题模型等技术。关键词抽取对于自然语言处理至关重要,集成多种算法可以提高准确性。
摘要由CSDN通过智能技术生成

网上看到一篇文章总结了几个关键词抽取的算法(如何做好文本关键词提取?从达观数据应用的三种算法说起),想到这是一个很重要的课题还是有必要小结一下的,有不足之处大家可以讨论讨论

还有几个比较好的链接供大家参考

中文分词原理及工具

中文分词工具测评

自然语言处理入门(4)——中文分词原理及分词工具介绍


大体上关键词抽取算法分三种:有监督(二分类问题,需提供大量标注好的训练数据),半监督(提供少量的有标注的训练数据作为种子数据构建模型),无监督(一些方法自动发现关键词)

有监督的方法需要大量的标注数据,这一点比较耗费人工,所以还是能无监督就无监督

对英语来说可以直接考虑以词语为单位,但是汉语处理还需要先经过分词处理,分词的准确率影响后来的算法准确率,分词的package包括jieba(github上有很多),NLTK,standfo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值