结巴分词关键词相似度_中文文本相似度计算工具集

本文汇总了中文文本相似度计算的相关工具和算法,包括分词工具如jieba、HanLP,关键词提取技术如TF-IDF、TextRank,词向量模型如word2vec,以及距离计算方法。同时介绍了doc2vec、simhash等算法,并提供了文本相似度计算的综述和相关资源。
摘要由CSDN通过智能技术生成

【磐创AI导读】:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总。喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。另外您对我们的文章有任何的意见或是文章中的不足之处,欢迎在文末留言。

一.基本工具集

1.分词工具

jieba

结巴中文分词

https://github.com/fxsjy/jieba

HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

HIT-SCIR/ltp

Language Technology Platformhttp://ltp.aihttps://github.com/HIT-SCIR/ltp

2.关键词提取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值