目录
一、项目简介
本项目是基于携程网中关于大唐不夜城评论的文本分析,项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。
二、实验过程
实验环境
Anaconda
Python3.9
2.1获取数据
数据目标是获取携程网中关于大唐不夜城景点的评论文本数据
由于该网站抓包不是很方便,于是我果断选择使用selenium自动化工具来爬取数据。该网站也不需要登录,直接可以访问这个页面并且可跳转下一页,最后我们使用CSV文件进行存储。
先导入第三方库
from time import sleep
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome,ChromeOptions
from selenium.webdriver.common.by import By
import warnings
import csv
import random
#忽略警告
warnings.filterwarnings("ignore")
创建我们的浏览器并准备好用来存储评论数据的csv文件
# 创建一个驱动
service = Service('./chromedriver.exe')
options = ChromeOptions()
o