毕业设计spark++hive知识图谱微博舆情预测

1、开发环境以及工具介绍
开发环境使用Win10操作系统,开发工具使用IDEA,Navicat,PyCharm等,数据爬取利用python的Requests框架进行,情感分析使用LSTM算法,数据库服务器使用MySql,数据处理技术使用Spark和Flink,Web端架构使用Springboot和vue等技术,可视化展示使用Echarts技术。

舆情预警系统是对新浪微博的近期热点相关的评论数据进行爬取,利用Requests框架获得海量数据。再对获取的数据进行数据预处理后导入到MySQL数据库,基于数据集利用LSTM(Long Short Term Memory)技术训练神经网络模型,对句子进行情绪上的分类和识别,对负面情绪消极数据和正面积极数据进一步分析,得到具体比值,当某种情绪到达阈值时进行预警,做到数字化的情感反馈。使用Spark和Flink等技术对相关数据进行数据实时处理,Web端框架使用Springboot和Vue等技术完成,大屏可视化展示用Echarts实现可视化。

2、算法及解决方案
1、数据爬取模块理论依据

使用urllib获取微博的cookie伪装成人类访问,从而点击微博新闻首页,根据爬取的热搜词条,抓取热搜词条对应的新闻数据,使用requests框架获取数据,当抓取到html以后,用BeautifulSoup进行解析,抓取到需要的数据如:用户名、微博名称、点赞量、转发量、发布时间、地区等关键信息,存储到mysql数据库作为数据集使用;

2、微博情感分析模块理论依据

抓取大概十多万微博数据,分析的数据较大,需要使用lstm批量情感分析,可以利用Java的多线程技术以及Python的lstm情感分析算法的技术优势,将Python编写好的分析算法代码集成到Java中,使用IDEA的Python插件进行调用,这样多线程处理情感分析速度快。对于分析后的数据使用Flink实时计算框架导入实时分析结果表,提供给前端调用。

3、数据可视化模块理论依据

数据统计分实时统计和静态统计,热词使用websocket技术与SpringBoot后台实时通信获取热词动态显示,静态数据通过vue发送http请求与后端SpringBoot交互获取json数据。所有分析的数据使用echarts进行大屏显示。实时计算的时候使用Spark大数据框架的SparkSQL模块进行数据分析。

3、实施方案
舆情预警的分析需要海量的数据采集,并需要保证数据的精准度,而新浪微博平台的反爬机制具有一定的难,因此在数据挖掘时会影响爬取进度,虽说微博对爬取的频率做了限制,不过站在微博官方的角度同时想让搜索引擎爬取数据,又要防止其他爬虫对服务器带来的压力。

舆情预警系统的重点时舆情的分析,其中要涉及到的技术有文本分类,聚类,倾向性识别,主题检测和追踪,自动摘要等计算机文本信息内容识别技术。其中基于关键词统计分析方法的技术相对比较成熟,但在关键词的有效性有很大的提升。
(3)面对网站的反爬机制从三个方面着手,第一是对用户请求的Headers反爬虫,这是较为常见的反爬机制,我们需要伪装Header,直接在爬虫中添加Headers即可(其中Headers是一个字典,通过这种可以将爬虫模拟成浏览器对网站访问)。第二种是基于用户行为的反爬虫,有一部分网站是通过检测用户行为,列如同一个IP短时间多次访问同一个页面,或者同一个账户短时间内进行多次相同操作,面对这种防爬则需要有足够多的IP来应对也可以在每次访问后间隔一定的时间再进行下一次请求。最后一种则是动态页面的反爬虫一些应用ajax的网站会采用,这样增大了爬取的难度(防止静态爬虫使用ajax技术动态加载页面),我们需要爬取的数据是通过ajax请求得到,或者通过Java生成的,解决方案是使用Selenium(自动化Web测试解决方案,模拟用户操作)和PhantomJS(一个没有图形界面的浏览器)来实现对微博网站的爬取。

(4)文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感分析中的情感极性(倾向)分析。所谓情感极性分析,指的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向,本项目将使用深度学习模型中的LSTM(Long-Short Term Memory,长短期记忆人工神经网络)模型来实现文本的情感分析。LSTM能够很好的表达出句子中词的关系,能将句子当做一个整体来看待,而不是一个个单独的词,由此不难看出再情感分析上面LSTM对于其他算法具有一定的优势。

(5)舆情情感分析预警系统不同于传统的舆情分析系统,舆情分析预警系统使我们能够实时地检测网民对时事热点的不同看法,面对海量地数据无法做到人工的方式对互联网舆情进行全面监控的难度。因此结合网络评论采集和文本信息自动化处理等技术研发一个热点舆情的情感分析趋势,因而可以对早发现的热点舆情及时进行干预,引导疏通网民的情绪和心理,避免矛盾进一步恶化而造成更大的社会损失。对预警热点进行监管规范网络行为,净化网络环境,再从中获得有用的价值,例如商业价值,信息传播以及社会学方面的研究价值,并从中满足人们的需求,同时对于社会的和谐,网络舆论生态的健康,公司管理层的正确决策,国家的发展都有重要的现实意义。之后还可以对增加近年来网民的素质以及看法的分析和对热点的关注点推荐系统。

(6)舆情情感分析预警系统预期对微博的新闻头条和热搜排行进行自动采集,进行对话题热度的趋势变化和发布分析,对网民的热点评论数据进行情感分析,得出最近热点关键词,输入关键词后可对该关键词有关的微博消息进行评估预警,提醒使用者以便于做出应对措施

  • 24
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: flume+spark+hive+spark sql离线分析系统是一种基于大数据技术的离线数据分析系统。其中,flume用于数据采集和传输,spark用于数据处理和计算,hive用于数据存储和管理,spark sql用于数据查询和分析。通过这个系统,可以实现对大量数据的高效处理和分析,为企业决策提供有力的支持。 ### 回答2: flume spark hive spark sql离线分析系统是一种数据处理系统。该系统可以用于处理大量的数据,生成相应的报告和分析。博客文章有详细讨论。 flume是一个分布式日志采集系统,它可以将数据从不同的地方采集并传输到所需的位置。它可以采集不同的日志数据,包括web日志、服务器日志、应用程序日志等。flume是一个可扩展的系统,可以用于处理大量的数据。 spark是一个强大的分布式计算引擎,它允许用户在大规模的数据集上进行高性能计算。spark可以快速地处理大量的数据,并支持多种编程语言,例如Java、Python和Scala等。spark还提供了可视化编程工具,例如RDD(弹性分布式数据集)来支持数据处理和分析等任务。 hive是一个基于Hadoop的数据仓库系统,它可以将结构化的数据存储在Hadoop的HDFS文件系统中。hive提供了类SQL的查询语言,例如HQL,并支持复杂查询和数据分析任务。hive还提供了很多插件,使用户可以轻松地将数据导入和导出到不同的数据源中。 spark sql是spark的一部分,它提供了SQL查询和数据分析功能。spark sql的灵活性和可扩展性使其非常适合处理大数据量的数据,包括结构化数据和半结构化数据。 综上所述,flume spark hive spark sql离线分析系统是一个可以用于处理大量的数据的系统,它由flume、sparkhive以及spark sql等组成部分。该系统可以帮助用户轻松地采集、存储、分析和报告大量的数据,有着非常广泛的应用。 ### 回答3: Flume、SparkHiveSpark SQL四个工具都是用于离线分析系统的。 Flume是由Apache基金会开发的开源数据采集系统,用于收集、聚合和移动大量数据。Flume可以实现数据的采集、压缩、持久化和转发,从而实现数据流水线。Flume可以将数据从不同来源收集到不同的目标,支持多种数据源,包括文件、HTTP、数据库等。Flume可以使数据收集更加高效和可靠。 Spark是一种快速、通用的计算引擎,用于大规模数据处理。Spark支持分布式计算,可以在数百台计算机上并行运行。Spark是用Java、Scala或Python编写的,可以处理数据,并提供先进的机器学习和图形处理功能。Spark具有内存计算和多种处理任务的灵活性,可以用于各种大规模数据处理的场景中。 Hive是面向Hadoop的数据仓库软件,提供了一个类似SQL的查询语言,用于查询和分析大规模数据。Hive将数据以表格的形式组织和存储,并通过SQL语言进行查询和分析。Hive可以用于各种数据仓库的管理,包括文件、HDFS、HBase等。 Spark SQL是在Spark引擎之上构建的结构化数据处理系统,提供了一种基于SQL的编程接口。Spark SQL可以将结构化数据与RDD集成在一起,可以使用Spark的内存计算引擎和流式处理引擎进行大规模的数据分析。Spark SQL可以在SQL查询中使用自己的数据格式,从而实现高效的数据处理和分析。 综上所述,Flume、SparkHiveSpark SQL这四个工具是离线分析系统中的重要组成部分,可以实现数据采集、数据处理和数据分析。在大数据分析的过程中,这些工具为数据科学家提供了丰富的选项,从而可以更好地处理数据,加快分析速度并获得更深入的见解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值