[内附完整源码和文档] 基于Java的新闻热点与趋势挖掘工具

一、项目概述
1.1 项目简介
本项目为一个新闻站点文章爬取和分析工具,能够通过抓取一定时间内某个新闻网站上所发布的所有新闻,分析得出某些极具参考价值的数据结论如新闻热点和舆论变化趋势等等。本项目所实现的网络工具主要包含以下三个功能:

年度关键词分析:通过抓取和分析一年以来新闻站点所发布的文章内容,分析一年内最受关注的新闻热点词汇

热门词汇趋势:以月为单位呈现某些新闻要素的曝光率以及变化趋势

相关度分析:深度研究已经得到的数据,挖掘某些新闻要素所隐含的联系

1.2 优势比较
与其他产品相比较,本项目的特点和优势在于以下三个方面:

轻量级网络程序,数据抓取和统计工作可以同步进行

使用云计算平台,效率高,运行稳定

实时的数据采集和分析过程,灵活性好

1.3 技术难点
项目要求抓取某个新闻站点一年内所有的文档,因此需要设计一条合理的网站检索路径

对汉语文档进行词频统计首先需要对文档进行分词,词语分割是否准确直接影响之后的统计结果

某些常见的词语本身并无实际意义(如助词等),需要在统计过程中予以摒弃

二、文件结构说明
scrapy:网络爬虫代码

hdParse:hadoop处理爬虫结果,排序等等

result:网络数据爬取结果

infographic:数据分析结果信息图谱

presentation:项目展示材料

三、项目架构说明
本项目程序使用Java程序开发设计,程序包含数据爬取+数据分析两个环节的工作。项目使用阿里云平台作为运行环境,所有数据挖掘工作都将在云端执行,所获得的原始数据将在本地作进一步处理。
在这里插入图片描述
完整的源码和详细的文档,上传到了 WRITE-BUG技术共享平台 上,需要的请自取:

https://www.write-bug.com/article/2952.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值