〇、概述
旅游大数据实验以网络上的评论数据为例,进行数据的抓取、存储、分析和展示,通过该案例的学习,能够了解一般数据分析的基本流程和采用的基本分析技术,为将大数据技术应用到其他行业奠定基础。
一、爬取数据
我们将众誉旅游大数据网站上爬取其中一个景区的部分评论数据。爬取的众誉大数据页面的网址是http://zydsj.net/zydsj.html。界面如下:
1、打开Pycharm
双击桌面Pycharm图标,启动Pycharm。
2、打开项目spider
在Pycharm导航栏中选择File->Open,选择文件夹/home/user/PycharmProjects/spider,点击OK打开项目。
爬虫代码主要使用requests包和etree对指定网页的指定的数据进行爬取。
3、执行程序
在项目文件中右键,选择Run执行程序程序会爬取评论数据并存储在文件中,文件路径为/home/user/CommentFile/commentFile
4、观察实验结果
打开终端,输入命令cat /home/user/CommentFile/commentFile文件内容如图所示
cat /home/user/CommentFile/commentFile
二、数据存储
1、打开Idea
双击桌面Idea图标打开IDE。
2、打开项目hbase_test
如下图所示,打开项目(如果已经打开就不需要重复打开了)。
该项目中有3个文件,HbasePut.java用于将爬取下来的数据存入Hbase中,Hbase是分布式存储数据库,具有高可靠性、高性能,用于海量数据的存储。HbaseGet.java用于从Hbase中取出数据,经过处理后存入文件。WordFrequencyCount.java用于词频计算,是HbaseGet.java调用的,用于处理数据的文件。
3、执行程序
首先启动Hbase。打开终端,依次输入:
start-dfs.sh
zkServer.sh
startstart-hbase.sh
打开项目中HbasePut.java文件,右键运行程序程序会将爬取下来的数据存储到Hbase中。
start-dfs.sh
zkServer.sh start
start-hbase.sh
4、观察结果
进入hhase shell,在终端中输入:hbase shell查看tourism表中数据是否已经存在。
输入:scan 'tourism'
5、数据处理
打开HbaseGet.java,右键选择运行。该程序会对存储的评论数据进行处理,为统计词频和情感分析做准备。文件存储于/home/user/CommentFile/commentFrequencyCount.txt和/home/user/CommentFile/comments.txt中。
三、情感分析
1、启动Pycharm并打开项目predict
双击Pycharm图标,启动Pycharm选择File->Open打开项目predict。
其中的DB_raw_predict.py通过使用已经建立的模型,对评论数据进行情感分析。
2、执行程序
在DB_raw_predict.py文件中右键选择Run执行程序。
3、观察结果
在终端中输入cat /home/user/CommentFile/pie.txt查看情感分析的结果(其中1表示正面评论,0表示负面评论)。
cat /home/user/CommentFile/pie.txt
四、绘制词云
1、启动Pycharm并打开项目
双击桌面Pycharm图标打开编辑工具在Pycharm导航栏中选择File->Open,选择项目/home/user/PycharmProjects/wordcloud。
wordcloud.py是通过echarts的python库来实现词云。
2、执行程序
在wordcloud.py文件右键,选择Run执行程序程序执行结束后,会在桌面生成wordcloud.html文件。
3、观察结果
双击wordcloud.html文件即可在浏览器中观察结果。
五、绘制饼图
1、启动Pycharm并打开项目
双击桌面Pycharm图标打开编辑工具在Pycharm导航栏中选择File->Open,选择项目/home/user/PycharmProjects/pie。
pie.py同样是通过echarts库实现饼图绘制。
2、执行程序
在pie.py文件右键,选择Run执行程序程序执行结束后,会在桌面生成pie.html文件。
3、观察结果
双击文件即可在浏览器中观察结果。