基于kmeans的聚类微博舆情分析系统

本文介绍了一个利用网络爬虫抓取微博数据,通过k-means进行聚类分析,结合Echarts进行数据可视化的微博舆情分析系统。系统涉及文本预处理(分词、去停用词、TF-IDF关键词提取)和数据可视化(词云图、Echarts图表)。研究旨在通过数据可视化技术,提升对舆情事件的预测、感知和反馈能力,特别是在校园霸凌话题上的舆情分析。
摘要由CSDN通过智能技术生成

第一章绪论

1.1研究背景

如今在我们的生活与生产的每个角落都可以见到数据与信息的身影。自从上十世纪八十年代的中后期开始,我们使用的互联网技术已经开始快速发展,近些年来云计算、大数据和物联网等与互联网有相领域的发展让互联网技术达到了史无前例的高度,信息技术与金融、科研、交通等各个方面也都产生了很多交集与融合,它催生了数量级数据的极速增长,因此人类也就进入到了大数据的时代。在互联网领域中数据迅速增长的由用户产生的交互信息数据已经成为了主要数据源。如何从蕴含着巨大的价值的大量数据中提取有效的信息,了解数据的规律和结构,充分挖掘出数据的价值,将隐藏在数据背后的本质抓取出来,成为了当今的科技领域的主要问题。数据可视化技术是随着时代的发展而出现的,它能够将数据转换成更容易被人们理解和接受的图形和图像。它与信息图形的各个领域有着密切的关系,涉及范围非常广泛。目前,数据可视化应用在医学、教育、科学研究等领域是一个非常常见和重要的技术。

可视化的需求是巨大的和多样化的。尽管目前已有许多关于可视化的研究,但是人们对可视化的需求仍然没有得到很好的满足。因此,本文在分析了当前可视化工具不足的基础上设计并实现了一个通用型的可视化系统。在可视化系统当中,关键的是从可视数据到图形图像的转换,本文主要选用Echarts来实现数据的可视化分析。

可视化能够将数据用直观的方式表达出来,把数据变得更加地便于被理解。形状、大小和颜色等图形化的东西比单调无味的数字、文字更加符合人类的理解和记忆习惯。数据可视化在总结,归纳与分析时,有着极其重要的地位,通过将数据映射为可视化的图像,以便于对数据进行了更直观的解读,能够帮助人们更加有效地从数据中发现其表达的信息,并且可以赋予图表丰富的交互功能,使用户可以根据自己的需要对图表进行修改,从中进一步地发现有价值的规律或着结论,为相关领域的研究与相关决策提供了重要的参考依据。

1.2研究目的

数据可视化分析对舆情事件的意义在事情发生前预的测、事情发生中的感知以及事情发生后的反馈三个方面中体现出来。

1、事情发生前预测,相当于于加强了大数据对舆情产生的预测的功能,在舆情事件没有发生之前,提前去建立监测方法,起到了防范于未然的作用。

2、事情发生中感知,实质上也就是舆情事件刚刚发生的时候,基于大数据的监测起到了感知作用,有利于快速地发现舆情事件,第一时间去掌控整个事件。

3、事情发生后反馈,利用可视化技术进行数据处理,将大量数据经过视觉处理后显示出来,使人们能够充分利用视觉感知来观察能力去处理信息点,为了找到信息与隐藏模式之间的关系,结合不同维度的信息,有助于决策者密切控制舆论的态势和动态,为决策提供重要的数据支持。

1.3国内外研究现状

近几年来,社会情况的分析不断出现,但分析舆论的基本方法并没有根本改变。也就是说,是通过网络爬虫的方式去实现数据采集。一个是样本数据库,第二个是通过网络服务器收集数据并下载到本地服务器,第三个是进行重复数据消除和聚合,第四个是将清理后的数据以图像形式直观地呈现出来,目前国内相对较大的公共监控软件提供商有黄玉、创始舆论、加尼舆情、美亚舆情。

近两年来,随着国情软件的开发,云平台的建设出现了新的趋势。舆论分析主要基于个人监视软件,软件产品放在客户的本地服务器上,软件供应商提供后期软件升级和支持服务。这样的服务模式有几个弊端,由于服务器分散,数据的收集和分析对大的数据处理和密集输出不利,软件服务逐渐取代云数据平台的创建,客户可以远程访问网站和客户。

2008年,迈克尔将数据可视化分为统计图形和主题地图两部分提出。到现在为止,数据的可视化技术也发展了。现在,不仅是世界各国的大学,还成立了可视化研究小组。另外,政府和大型企业也在可视化研究上投入了资金,每年召开几次有关数据可视化的国际会议。SAS等知名公司在数据可视化方面也取得了很大的发展,开发了许多成熟稳定的可视化产品和工具。除了有名的OpenGL和DirectX之外,还有以下几点。

(1)SASRVisualBI:是SAS公司发布的商业智能软件,数据可视化技术定义了大量动态交互。

(2)美国Skyline系列软件:Skyline拥有世界顶级的三维数字显示技术。有名的产品有terrabuilders、terraexplors和terragates。现在是国内制作大规模真实的三维数码场景的第一选择软件。

(3)Gephi:Gephi是用于可视化社会图数据的工具,也是用于可视化网络搜索的平台,用于创建动态级别的数据表。

另外,还有很多其他优秀的双向分析工具。例如,桌子、造型师、Bo、BIEE等工具也采用了视觉化技术。有良好的视觉效果。

(1)360大数据平台Komb-2骗子地图和360星图:基于大量的设备,360使用大数据技术分析出骗子地图产品,让人们看到真正的大数据,发现互联网欺诈。

(2)Ethink数据智能分析平台:主要支持功能是实现大屏幕、驾驶室、仪表板等数据可视化产品,它实现了数据可视化,数据报表,自助分析,移动BI等功能,目前已在电信、金融、烟草、审计、公安、财政、制造业等行业广泛应用。

(3)阿里巴巴集团研发了可视化分析平台就是淘宝指数,通过对阿里集团旗下的1688、淘宝天猫等平台上产生的商业交易数据进行分析与可视化,为买卖双方和其他第三方机构提供信息共享,也提供了用户的交易保障。

EnterpriseCharts,一个纯Javascript的图表库,可以流畅地运行在PC端和移动设备上,缩写就是Echarts,商业级数据图表,兼容当前绝大部分的浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),它的底层依赖轻量级的Canvas类库ZRender,它提供直观,生动以及交互式和高度可定制的有特点的数据可视化图表。创新的拖拽重计算、数据视图以及值域漫游等特征大大增强了用户的体验感,让用户能够对数据进行爬取挖掘、整理分析的能力也随之提升。

它支持多种可视化的图表,比如折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时能够提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可以交互的组件,Echarts支持多个图表、组件的联合和混合搭配表现出来。

1.4主要研究工作

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值