Python进行携程酒店评论舆情分析
第一步:分析设计
我们是对酒店进行舆情分析,所有我们的核心是酒店的评论数据;对住客的评论数据进行特征提取,通过住客对酒店的评分,对数据进行分类,并使用朴素贝叶斯算法建立数学模型
第二步:数据收集
爬取酒店的相应类型的数据,如酒店的名称,住客的评论,酒店的回复,住客的评分,酒店的综合评分等等
酒店数据:
第三步:数据处理
数据清洗(在统计分析里面至少150条以上的数据)
依据评论ID去重数据(在SQL部分处理)
select * from hotel_comment_datas group by `评论ID`
特征工程
利用特征工程获取相应评论的内容,需将文本信息转为相应的数值
(1)获取评论内容,做相应的索引(对所有的评论做处理)
import pandas as pd
sql = '''select * from hotel_comment_datas group by `评论ID`'''
data = pd.read_sql(sql, conn)
# 去除标签列所对应的缺失值,可以使用花式索引的方式,对于数据进行相应的清洗和替换
data = data[['评论内容', '评分']].repla