舆情分析项目实战

舆情分析项目

1.课程目标
1.1 熟练使用hive进行数据分析
1.2熟悉舆情分析,日志分析大数据项目领域的相关概念
1.3掌握项目的分析步骤和方法
2.项目背景
这是一个使用大数据做的政府舆情分析的项目,主要是在网络发达信息爆炸这样的状况下,帮助政府部门对网络信息进行监管,为了防止负面新闻快速传播,政府部门做一些措施和及时的控制,有效地进行舆论导向,及时控制不良信息的发展,净化网络环境。分地区、分时段分析,以不同维度展现数据。
3.项目流程
python爬虫实时对国内30多家影响力的新闻网站(如今日头条、网易新闻等),实时监控,对新闻言论进行爬虫,爬到日志服务器中,然后多级flume收集汇总 ,使用mr清洗,全量数据保存到hdfs上一份,另一份到kafka,ETL工程师从hdfs上获取数据,开始使用hive做的,后来考虑实时性改为spark做的,kafka数据给spark程序实时计算,计算新闻一些重要指标,及新闻正负面级别,然后上报领导,领导根据级别进行处理

4.关键指标分析
词汇增长率,舆情分析,地域分析,ip分析,新闻网站分析 …

4.1 新闻动态,实时词汇小时,天增长率,可以了实时词汇变化趋势

先求出今天词频和昨天的词频,然后按时间排序添加行键,然后自关联求出两天都出现,再求出今天出现昨天没有出现和昨天出现今天没有出现的,然后关联使用UDF计算出昨天词汇的增长率,使用开窗函数求topN

4.2 舆情分析,对标题,文章,评论等分析

根据新闻的词汇,和算法算出的词汇规则库,算出每条新闻所占的分数,然后由上下文,情感色彩等 使用算法工程师提供的API算出这条言论的正反面,同时根据分数给一个级别,写入mysql 由上级领导处理。

4.3 针对新闻网站来源分析

分析出那些网站负面言论较多,监管部门对网站下通告!

根据网站分组,找出负面言论的topN

结果保存到mysql,

4.4 针对ip负面topN

找到那些人发表负面言论较多,进行封号,限定言论,或者请喝茶

根据ip分组,找出负面言论的topN

4.5 地域分析, 看到那些地域经常出现负面新闻

根据地域分组,找出负面言论的topN

4.6 新闻类别分析, 看到那些类别新闻经常出现负面新闻

根据类别分组,找出负面言论的topN

校园舆情管理系统是一个基于Django开发的实际项目,它的主要目标是帮助学校管理和监控校园内的舆情信息,包括学生的投诉、教师的评价、校园新闻等。下面将介绍该系统的主要功能和实现方式。 1. 用户管理:系统支持多种类型的用户,包括学生、教师、管理员等。用户可以通过注册和登录来使用系统,并且根据用户类型来限制其访问权限。 2. 舆情信息发布:用户可以发布与校园相关的舆情信息,包括投诉问题、教师评价、校园新闻等。用户可以上传附件、添加标签和描述,以便更好地组织和管理舆情信息。 3. 舆情信息管理:管理员可以对发布的舆情信息进行审核和管理,包括审核投诉问题、处理教师评价、编辑校园新闻等。管理员可以通过系统提供的界面对舆情信息进行分类、标记、筛选等操作。 4. 舆情信息展示:系统提供多种方式来展示校园舆情信息,包括热门舆情排行榜、舆论分析报告、关键词云图等。用户可以通过这些展示方式来了解校园的舆情动态。 5. 舆情信息监测:系统可以对校园内的舆情信息进行实时监测,通过自然语言处理和数据挖掘等技术来识别和分析舆情信息。这样可以及时发现和处理校园的舆情问题。 该校园舆情管理系统使用Django框架进行开发,可以快速构建起一个功能完善的校园舆情管理平台。Django框架提供了丰富的功能和模块,包括用户管理、数据存储、Web界面等,可以大大加快开发进度和提高系统的稳定性。同时,Django还提供了便捷的API接口和模板引擎,方便系统与其他应用进行交互和扩展。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值