fnlp实践——新闻关键词提取

最新推荐文章于 2024-08-08 07:59:26 发布

orangeFighting

最新推荐文章于 2024-08-08 07:59:26 发布

阅读量4.7k

点赞数 1

分类专栏： java 自然语言处理文章标签： fnlp 关键词提取分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lcc921528642/article/details/46316645

版权

这篇博客分享了一个基于fnlp的新闻关键词提取项目，通过分词、去除停用词，统计频率来获取每条新闻的前20个高频词作为关键词。介绍了文件索引的实现和fnlp库的简单应用。

摘要由CSDN通过智能技术生成

把之前做过的校园新闻小项目拆开来，简单分析每个部分的功能，希望能给感兴趣的童鞋一些借鉴和启发。纯手工打造，尊重原创，转载必究！

上一篇博客已经谈到项目里服务器程序如何爬取新闻网上的内容，把与新闻相关的文本内容存储为文件，与新闻相关的图片上传到图片服务器。在文件处理阶段，我需要的是将新闻按时间分类保存到数据库，并且提取指定时段的关键词存储为文件，为客户端推送经过分类的新闻，并且在有了关键词之后可以为给客户端用户推荐感兴趣的新闻做准备。

这个部分的结构比较简单，主要是文件读写操作和关键词提取。关于文件读写值得一提的是，由于新闻需要按时间分类，所以为了加速找到指定时间的新闻，建立了一层索引文件记录每条新闻的位置，这就得事先定义好爬虫后文件存储格式的协议，索引文件内的格式（一般是(i,j)格式，i代表文件名，j代表数据在这个文件里的偏移量）。下面主要聊关键词的提取，给大家分享一下使用复旦开源项目 fnlp 的心得。

获取关键词的大体思路是：将新闻内容（字符串）分词，去掉停用词，对剩下的词做统计，选择其中出现频率最多的20个词作为关键词，存储到文件里。

fnlp的环境配置这里就不多说了，可以参考他们在github的官方教程，考虑到都是些基础操作，这里直接上代码。

    /**
     * 统计指定日期所有新闻出现排名前20的热词&

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

orangeFighting CSDN认证博客专家 CSDN认证企业博客

码龄13年

28: 原创

24万+: 周排名

59万+: 总排名

8万+: 访问

: 等级

1055: 积分

65: 粉丝

28: 获赞

15: 评论

79: 收藏

私信

关注

热门文章

分类专栏

最新评论

image and video processing 听课笔记（六）
小安(⊙o⊙)…: 博主您好，请问这个帖子的内容是参照哪篇论文或者哪个材料呀
双目立体视觉入门
qq12246: 你好
fnlp实践——新闻关键词提取
勇气9601: AbstractExtractor key = new WordExtract(seg,sw);为什么我这一句报错显示没有WordEXtract的有参构造方法，我已经把对应jar包倒进去了
从单目视觉信息学习深度信息（一）
JianRobSim: 博主您好，请问后续的文章还有吗？最近在学习单目测距，看到您的文章学到不少，期待您的回复！
从单目视觉信息学习深度信息（一）
couthello: 博主您好，您这个系列的博客只有这一篇吗？最近有一些和深度学习结合的方法，不知您是怎么看待的

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。