基于爬虫+词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析_爬取评论,使用层次聚类算法分析

本项目利用Python爬虫从携程网获取大唐不夜城评论数据,进行情感分析、词云图绘制、TF-IDF+KMeans聚类和LDA主题分析。结果显示评论主要为积极,消极评论主要问题是人多拥挤。
摘要由CSDN通过智能技术生成

7810c21adf3441d98ab184828c1b8334.png

目录

一、项目简介

二、实验过程

2.1获取数据

2.2情感分析

2.3TF-IDF+Kmeans聚类分析

2.4LDA主题分析

2.5社会语义网络分析

三、总结


一、项目简介

本项目是基于携程网中关于大唐不夜城评论的文本分析,项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。

二、实验过程

实验环境

Anaconda

Python3.9

2.1获取数据

数据目标是获取携程网中关于大唐不夜城景点的评论文本数据

f3f3e92d0c3b481aa0a70b1a1c482465.png

由于该网站抓包不是很方便,于是我果断选择使用selenium自动化工具来爬取数据。该网站也不需要登录,直接可以访问这个页面并且可跳转下一页,最后我们使用CSV文件进行存储。

先导入第三方库

from time import sleep
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome,ChromeOptions
from selenium.webdriver.common.by import By
import warnings
import csv
import random
#忽略警告
warnings.filterwarnings("ignore")

创建我们的浏览器并准备好用来存储评论数据的csv文件

# 创建一个驱动
service = Service('./chromedriver.exe')
options = ChromeOptions()
o
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值