旅游大数据的数据采集模型和数据分析系统

小白学习ing


前言

旅游大数据的数据采集模型和数据分析系统,以六安市旅游景点为例,采集携程网站上游客对景点的评价。对数据进行情感分类后,得到情感分析机器学习的数据集,进而训练情感分析模型。用训练好的模型制作简单的问答系统,实现对用户输入的文本进行情感预测。不仅如此,将六安市景点的数据进行简单的数据分析,包括热门景点分析、时间趋势分析和关键字词频统计。
GitHub地址:LSTM-DataAnalysis,欢迎下载指正!


一、思维导图

旅游大数据的采集模型和数据分析系统


二、过程

1.数据的采集与存储

我尝试了两个方法。
方法一是使用八爪鱼采集器。下载后直接使用即可,输出为csv文件。
方法二是采用 Selenium 和 Chrome 浏览器自动化工具。
GitHub地址:Spider_Xiecheng_Comments

1.1版本问题
chromedriver 和 chrome 浏览器的版本需要对应。我的代码中有 chromedriver.exe 和对应的 chrome 浏览器安装包。
1.2数据采集
编写 python 代码,通过 CSS 选择器获取需要的数据,保存在数组中。用户输入爬取的景点名称和对应的携程网址,将采集结果输出为csv文件。
1.3数据存储
使用 SQLite Expert Professional 将csv文件转换为db文件,然后直接将需要的db文件保存在项目文件夹下。py文件需要时直接导入包即可使用。
import sqlite3

2.情感分析模型建立

2.1安装库
项目能跑首先要安装各种需要的库,而且版本对应也要非常注意。
在命令行:使用 conda 创建房间,进入房间,进入项目文件夹,下载好这个项目需要的包。
在base创建房间: conda create -n 房间名字 python=3.9

部分 conda 命令
进入房间:conda activate 房间名字
安装依赖:

  • pip install -r requirements.txt
  • conda install --file requirements.txt
  • pip install 要安装的包名 -i mirrors.aliyun.com... --trusted-host mirrors.aliyun.com

查看已安装哪些依赖:conda list

2.2训练运行程序
在 pycharm 编辑py代码(或者jupyter)
训练运行程序
法一:(命令行) python train.py --data_path data/test.csv --dataset_type classification --save_path model_save --log_path log
法二:(编辑器)run,编辑器的 console
pycharm 选择 python interperter
conda executable 选择:安装的anaconda的位置下的condabin\conda.bat
environment 选择:刚刚创建的那个房间
2.3基于LSTM的情感分析模型
定义一个简单的基于LSTM的神经网络模型,它包括输入层、LSTM层、全连接层、Dropout层和输出层。最后输出两个神经元,分别代表着消极和积极的概率。

3.数据分析系统

使用 Flask 框架,设置路由以及通过AJAX向Flask发送数据,实现各个页面的跳转,数据库数据的调用,浏览器与服务器的数据交互。

3.1 热门景点分析和时间趋势分析
使用 JavaScript 的 Echart 插件,绘制对应的柱状图和折线图。该景点的评论数量的多少,反映了景点的热门程度。一方面给游客选择景点提供参考,另一方面分析不同月份景点的热门程度,帮助游客选择合适的出行时间。
3.2 词云关键字提取
使用 python 的 wordcloud 库绘制词云树,对采集的用户评论进行关键词提取,采用一棵树的图片作为遮罩图片。
3.3 六安市地图绘制
在这个网站的下载的: echarts六安市地图加立体效果代码下载,感谢分享。
3.4 情感预测交互
实现一个简单的问答系统,用户输入一句话后点击提交按钮,浏览器接收数据传递给服务器,调用训练好的模型进行情感预测,返回结果。

三、参考

1、携程网景点评论爬虫
2、Flask模型部署教程
3、Python+Flask框架的数据可视化网站
4、情感分析可视化界面
5、基于Bert和双向LSTM的情感分类


总结

主要是作为学习的一个小项目,很多地方都是用简单的办法解决的。主要目标就是能够实现这些功能就行,所以还有很多可以改进的地方。

  • 30
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值