如何用Java实现NLP的经典关键词算法 TF-IDF

最新推荐文章于 2024-09-03 21:47:15 发布

置顶

ousheobun

最新推荐文章于 2024-09-03 21:47:15 发布

阅读量4.2k

点赞数 7

分类专栏：机器学习文章标签： java nlp 自然语言处理

本文链接：https://blog.csdn.net/sinat_18091513/article/details/79432754

版权

本文介绍了如何使用Java实现NLP中的TF-IDF算法，通过分词、计算词频和逆文档频率来提取文本关键词。以朱自清的《背影》为例，解释了TF-IDF的原理及其在关键词提取中的应用，强调了停用词表和自定义分词对提高准确性的意义。

摘要由CSDN通过智能技术生成

面对一篇文章，我们如何提取他的关键词呢。如果是我们自己去提取，那只需要读一遍，然后大脑中就会有一定的印象了，但是对于计算机来说，他没有人那样的思考能力啊，那怎么办，只能依靠算法了。今天分享的内容呢是如何用Java语言实现NLP(自然语言处理)领域中一个非常著名的算法 TF-IDF(Term Frequency–Inverse Document Frequency 词频-逆向文档频率算法)。读懂这篇文章需要有一点点的数理基础和Java基础。

讲在前面的话：
我是渣渣小本科一枚，对机器学习有些兴趣，平时喜欢在网上写写学习笔记什么的，文章有不恰当或者不合理的地方，欢迎大家指出。

原理部分

如果不想看我啰里啰嗦讲原理的童鞋，可以直接跳到代码部分哦

假定我们要为以下的文字提取关键词，原文来自朱自清先生的《背影》：

我说道，“爸爸，你走吧。”他望车外看了看，说，“我买几个橘子去。你就在此地，不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台，须穿过铁道，须跳下去又爬上去。父亲是一个胖子，走过去自然要费事些。我本来要去的，他不肯，只好让他去。我看见他戴着黑布小帽，穿着黑布大马褂，深青布棉袍，蹒跚地走到铁道边，慢慢探身下去，尚不大难。可是他穿过铁道，要爬上那边月台，就不容易了。他用两手攀着上面，两脚再向上缩；他肥胖的身子向左微倾，显出努力的样子。这时我看见他的背影，我的泪很快地流下来了。我赶紧拭干了泪，怕他看见，也怕别人看见。我再向外看时，他已抱了朱红的橘子望回走了。过铁道时，他先将橘子散放在地上，自己慢慢爬下，再抱起橘子走。到这边时，我赶紧去搀他。他和我走到车上，将橘子一股脑儿放在我的皮大衣上。于是扑扑衣上的泥土，心里很轻松似的，过一会说，“我走了；到那边来信！”我望着他走出去。他走了几步，回过头看见我，说，“进去吧，里边没人。”等他的背影混入来来往往的人里，再找不着了，我便进来坐下，我的眼泪又来了。

朱自清先生是我非常崇敬的一位作家，我非常喜欢他的作品。但是问题来了，计算机是没有情感的，他怎么能读懂这几段文字并提取关键词呢？

首先，我们需要计算机进行一个叫分词的操作，就是把文章按照一定的规则进行切分，切成一个一个的短语。分词的算法非常复杂，这里不作过多的阐述，有兴趣的朋友可以上网搜下相关的资料。

分词后我们要想个问题，是不是某一段中经常出现的词，是不是作者非常强调的词呢，那成为关键词的机会是不是越大呢。这里我们就要引入一个叫词频(TF)的概念了：