【磐创AI导读】:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总。喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。另外您对我们的文章有任何的意见或是文章中的不足之处,欢迎在文末留言。
一.基本工具集
1.分词工具
jieba
结巴中文分词
https://github.com/fxsjy/jieba
HanLP
自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁http://hanlp.hankcs.com/
https://github.com/hankcs/HanLP
盘古分词-开源中文分词组件
盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。
https://archive.codeplex.com/
pullword
Pullword-永久免费的可自定义的中文在线分词API
http://pullword.com/
BosonNLP
玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。
https://bosonnlp.com/
HIT-SCIR/ltp
Language Technology Platformhttp://ltp.aihttps://github.com/HIT-SCIR/ltp
2.关键词提取