基于java版jieba分词实现的tfidf关键词提取

最新推荐文章于 2022-08-19 20:04:45 发布

蓝色枫魂

最新推荐文章于 2022-08-19 20:04:45 发布

阅读量6.1k

点赞数

分类专栏： Data Mining & Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32690999/article/details/83246799

版权

Data Mining & Machine Learning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

基于java版jieba分词实现的tfidf关键词提取

文章目录

基于java版jieba分词实现的tfidf关键词提取

为了改善我的个性化新闻推荐系统的基于内容相似度的推荐算法效果，我尝试找寻关键词提取效果可能优于本来使用的ansj的tfidf的其它库，花了一番功夫后，发现tfidf算法本身并不复杂，但是训练tfidf的语料库可能才是性能的瓶颈，所以我找到了很有名的中文分词库 jieba分词的语料库，并且找到了 jieba分词的Java版本，于是fork了项目，并参照python版tfidf算法，实现了Java版本的tfidf算法，最后验证了效果一致。（PS：但是给原项目发pull request的时候没有人处理，看起来java版的项目似乎已经很长时间没有人维护了…）

我的项目链接放到了这里，欢迎大家star和fork，也欢迎提出任何建议和pull request，也希望以后能长期维护该项目，因为我本人对于自然语言处理的相关技术也是比较感兴趣的。

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
基于java版jieba分词实现的tfidf关键词提取

基于java版jieba分词实现的tfidf关键词提取文章目录基于java版jieba分词实现的tfidf关键词提取为了改善我的个性化新闻推荐系统的基于内容相似度的推荐算法效果，我尝试找寻关键词提取效果可能优于本来使用的ansj的tfidf的其它库，花了一番功夫后，发现tfidf算法本身并不复杂，但是训练tfidf的语料库可能才是性能的瓶颈，所以我找到了很有名的中文分词库jieba分词的语料库...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。