酒店评论数据分析
英文文本多分类(实验过程仅供参考)
实验任务:
对酒店评论进行情感分析,具体评分存入 Testing data;此实验看似为评论情感打分,实则做文本分类。可使用模型:朴素贝叶斯,SVM,XGBoost,逻辑回归……
实验步骤
数据清洗(去停用词,词干提取)——>特征提取(词袋模型,tfidf)——>模型训练——>预测结果
数据集展示:
Training Data:
实验过程
自然语言处理:
1、读取数据(使用pandas库中的read_csv()方法读取训练数据,输出数据为DataFrame型),并输出数据规模
df = pd.read_csv(r'D:\Documents\作业\机器学习\任务\Training data.csv')
df = df[['Review', 'Rating']]
print("数据总量: %d " % len(df))
运行结果:
2、数据清洗,查看空值个数
print("在 review 列中总共有 %d 个空值." % df['Review'].isnull().sum())
print("在 rating 列中总共有 %d 个空值." % df['Rating'].isnull().sum())
df[df.isnull().values == True]
df = df[pd.notnull(df['Review'])]
3、统计各类别的值,并输出
# 统计各类别的值
d = {'Rating': df['Rating'].value_counts().index, 'count': df['Rating'].value_counts()}
df_Rating = pd.DataFrame(data&