[内附完整源码和文档] 基于Java的新闻热点与趋势挖掘工具

最新推荐文章于 2021-12-09 19:36:07 发布

LEMFOooO

最新推荐文章于 2021-12-09 19:36:07 发布

阅读量352

点赞数

分类专栏：收集毕设和课设资源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LEMFOooO/article/details/107507767

版权

收集毕设和课设资源专栏收录该内容

90 篇文章 36 订阅

订阅专栏

一、项目概述
1.1 项目简介
本项目为一个新闻站点文章爬取和分析工具，能够通过抓取一定时间内某个新闻网站上所发布的所有新闻，分析得出某些极具参考价值的数据结论如新闻热点和舆论变化趋势等等。本项目所实现的网络工具主要包含以下三个功能：

年度关键词分析：通过抓取和分析一年以来新闻站点所发布的文章内容，分析一年内最受关注的新闻热点词汇

热门词汇趋势：以月为单位呈现某些新闻要素的曝光率以及变化趋势

相关度分析：深度研究已经得到的数据，挖掘某些新闻要素所隐含的联系

1.2 优势比较
与其他产品相比较，本项目的特点和优势在于以下三个方面：

轻量级网络程序，数据抓取和统计工作可以同步进行

使用云计算平台，效率高，运行稳定

实时的数据采集和分析过程，灵活性好

1.3 技术难点
项目要求抓取某个新闻站点一年内所有的文档，因此需要设计一条合理的网站检索路径

对汉语文档进行词频统计首先需要对文档进行分词，词语分割是否准确直接影响之后的统计结果

某些常见的词语本身并无实际意义（如助词等），需要在统计过程中予以摒弃

二、文件结构说明
scrapy：网络爬虫代码

hdParse：hadoop处理爬虫结果，排序等等

result：网络数据爬取结果

infographic：数据分析结果信息图谱

presentation：项目展示材料

三、项目架构说明
本项目程序使用Java程序开发设计，程序包含数据爬取＋数据分析两个环节的工作。项目使用阿里云平台作为运行环境，所有数据挖掘工作都将在云端执行，所获得的原始数据将在本地作进一步处理。
在这里插入图片描述
完整的源码和详细的文档，上传到了 WRITE-BUG技术共享平台上，需要的请自取：

https://www.write-bug.com/article/2952.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。