酒店评论数据分析(英文文本多分类)

本文档详细介绍了使用Python进行酒店评论的情感分析,通过数据清洗、特征提取(词袋模型、TF-IDF)、模型训练(朴素贝叶斯、SVM、XGBoost)来完成文本分类。实验过程中遇到的问题包括数据分布不均、停用词表的适配等,通过调整停用词表和模型参数以提高预测准确率。
摘要由CSDN通过智能技术生成

                                   酒店评论数据分析

英文文本多分类(实验过程仅供参考)

实验任务:

对酒店评论进行情感分析,具体评分存入 Testing data;此实验看似为评论情感打分,实则做文本分类。可使用模型:朴素贝叶斯,SVM,XGBoost,逻辑回归……

实验步骤

数据清洗(去停用词,词干提取)——>特征提取(词袋模型,tfidf)——>模型训练——>预测结果

数据集展示:

Training Data:

实验过程

自然语言处理:

1、读取数据(使用pandas库中的read_csv()方法读取训练数据,输出数据为DataFrame型),并输出数据规模

​
df = pd.read_csv(r'D:\Documents\作业\机器学习\任务\Training data.csv')
df = df[['Review', 'Rating']]
print("数据总量: %d " % len(df))

​

运行结果:

2、数据清洗,查看空值个数

print("在 review 列中总共有 %d 个空值." % df['Review'].isnull().sum())
print("在 rating 列中总共有 %d 个空值." % df['Rating'].isnull().sum())
df[df.isnull().values == True]
df = df[pd.notnull(df['Review'])]

3、统计各类别的值,并输出

# 统计各类别的值
d = {'Rating': df['Rating'].value_counts().index, 'count': df['Rating'].value_counts()}
df_Rating = pd.DataFrame(data&
评论提供了有关酒店的大量信息。这个数据可用于许多nlp项目:推荐系统,情绪分析,同类酒店的图网,基于评论酒店细分。该数据集包含25个城市的酒店列表和评论。 file/opensearch/documents/92885/hotelReviewsInAustin__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBali__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBangkok__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBarcelona__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBombay__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInChicago__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInDubai__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInHong Kong__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInIstanbul__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInLondon__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInMiami__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInMilan__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInNew York__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInOsaka__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInParis__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInPhuket__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInPrague__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInRome__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInSan Francisco__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInSantorini__en2019100120191005.csv file/opense
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值