舆情分析项目实战

舆情分析项目

1.课程目标
1.1 熟练使用hive进行数据分析
1.2熟悉舆情分析,日志分析大数据项目领域的相关概念
1.3掌握项目的分析步骤和方法
2.项目背景
这是一个使用大数据做的政府舆情分析的项目,主要是在网络发达信息爆炸这样的状况下,帮助政府部门对网络信息进行监管,为了防止负面新闻快速传播,政府部门做一些措施和及时的控制,有效地进行舆论导向,及时控制不良信息的发展,净化网络环境。分地区、分时段分析,以不同维度展现数据。
3.项目流程
python爬虫实时对国内30多家影响力的新闻网站(如今日头条、网易新闻等),实时监控,对新闻言论进行爬虫,爬到日志服务器中,然后多级flume收集汇总 ,使用mr清洗,全量数据保存到hdfs上一份,另一份到kafka,ETL工程师从hdfs上获取数据,开始使用hive做的,后来考虑实时性改为spark做的,kafka数据给spark程序实时计算,计算新闻一些重要指标,及新闻正负面级别,然后上报领导,领导根据级别进行处理

4.关键指标分析
词汇增长率,舆情分析,地域分析,ip分析,新闻网站分析 …

4.1 新闻动态,实时词汇小时,天增长率,可以了实时词汇变化趋势

先求出今天词频和昨天的词频,然后按时间排序添加行键,然后自关联求出两天都出现,再求出今天出现昨天没有出现和昨天出现今天没有出现的,然后关联使用UDF计算出昨天词汇的增长率,使用开窗函数求topN

4.2 舆情分析,对标题,文章,评论等分析

根据新闻的词汇,和算法算出的词汇规则库,算出每条新闻所占的分数,然后由上下文,情感色彩等 使用算法工程师提供的API算出这条言论的正反面,同时根据分数给一个级别,写入mysql 由上级领导处理。

4.3 针对新闻网站来源分析

分析出那些网站负面言论较多,监管部门对网站下通告!

根据网站分组,找出负面言论的topN

结果保存到mysql,

4.4 针对ip负面topN

找到那些人发表负面言论较多,进行封号,限定言论,或者请喝茶

根据ip分组,找出负面言论的topN

4.5 地域分析, 看到那些地域经常出现负面新闻

根据地域分组,找出负面言论的topN

4.6 新闻类别分析, 看到那些类别新闻经常出现负面新闻

根据类别分组,找出负面言论的topN

  • 4
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值