词干抽取java实现_LinkedIn文本分析平台：主题挖掘的四大技术步骤

最新推荐文章于 2023-03-05 22:03:57 发布

王俊煜

最新推荐文章于 2023-03-05 22:03:57 发布

阅读量312

点赞数

文章标签：词干抽取java实现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33901614/article/details/114763330

版权

LinkedIn前不久发布两篇文章分享了自主研发的

文本分析平台及主题挖掘

文本

在机器学习和自然语言处理等领域，主题挖掘是寻找是主题模型，主题模型是用来在一系列文档中发现抽象主题的一种统计模型。如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。简单而言，主题挖掘就是要找到表达文章中心思想的主题词。主题挖掘的主要原因有两个：首先，文件数量迅速增长，已经依靠人工的方式实现对全部文本信息高效阅读和理解，将该流程自动化已经势在必行。其次，主题挖掘可以提高文字重度依赖应用的使用效率和产出影响，比如搜索加索引、文本总结、聚类、分类和情感分析。

从大量文字中找到主题是一个高度复杂的工作，不仅因为人的自然语言具有多层面特性，而且很难找到准确体现资料核心思想的词语。目前现有方案如：TF-IDF(Term Frequency–Inverse Document Frequency)、互信息(co-occurrence)和LDA(隐含狄利克雷分布Latent Dirichlet allocation)；但是，这些算法要么是无法做到只提炼出重要主题，要么是不具高度扩展性和高效性。Voices的主题挖掘模块由LinkedIn自主研发，通过Hadoop和Spark实现，可以帮助LinkedIn规模化地进行用户反馈分析。

实现主题挖掘的四个技术步骤

Voices

一. 词性标注(POS：Part-of-speech)

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词干抽取java实现_LinkedIn文本分析平台：主题挖掘的四大技术步骤

LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台及主题挖掘文本在机器学习和自然语言处理等领域，主题挖掘是寻找是主题模型，主题模型是用来在一系列文档中发现抽象主题的一种统计模型。如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。简单而言，主题挖掘就是要找到表达文章中心思想的主题词。主题挖掘的主要原因有两个：首先，文件数量迅速增长，已经依靠人工的方式实现对全部文本信息高效阅读和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。