python电影情感评论分析_Kaggle电影评论情感分析

最新推荐文章于 2024-01-16 18:13:27 发布

东东嘿

最新推荐文章于 2024-01-16 18:13:27 发布

阅读量1.7k

点赞数 1

文章标签： python电影情感评论分析

本文链接：https://blog.csdn.net/weixin_32373123/article/details/113673061

版权

本文介绍了如何使用Python进行电影评论情感分析，包括数据预处理、特征工程（词袋模型、TF-IDF）、逻辑回归模型训练，并在Kaggle竞赛上进行实践。

摘要由CSDN通过智能技术生成

kaggle没什么可怕的。

简单的算法也很有效，逻辑回归打遍天下。

数据预处理和特征工程很重要。

Kaggle竞赛网站：

https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews

1. 导入数据集

import pandas as pd

data_train = pd.read_csv('./train.tsv', sep = '\t')

data_test = pd.read_csv('./test.tsv', sep = '\t')

data_train.head()

data_train.shape

2. 构建语料库

# 提取训练集中的文本内容

train_sentences = data_train['Phrase']

# 提取测试集中的文本内容

test_sentences = data_test['Phrase']

# 构建一个语料库。通过pandas中的contcat函数将训练集和测试集的文本内容合并到一起

sentences = pd.concat([train_sentence, test_sentence])

# 合并的一起的语料库的规模

sentences.shape

# 提取训练集中的情感标签

label = data_train['Sentiment']

# 导入停词库

stop_words = open('./stop_words.txt', encoding = 'utf-8').read().splitlines()

3. 特征工程

词袋模型，TF-IDF模型，word2vec模型进行文本的特征工程。

3.1 构建模型

二选一：

词袋模型

from sklearn.feature_extraction.text import CountVectorizer

co = CountVectorizer(

analyzer = 'word',

ngram_range=(1,4),

stop_words=stop_words,

max_features=15000

)

TF-IDF模型

from sklearn.feature_extraction.text import TfidfVectorizer

tf = TfidfVectorizer(

analyzer = 'word',

ngram_range=(1,4),

max_features=150000

)

3.2 训练模型

二选一：

co.fit(sentences)

tf.fit(sentences)

3.3 数据集拆分

将训练集随机拆分为新的训练集和验证集

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(train_sentence, label,random_state = 1234)

#- x_train 训练集数据 (相当于课后习题)

#- x_test 验证集数据 (相当于模拟考试题)

#- y_train 训练集标签 (相当于课后习题答案)

#- y_test 验证集标签(相当于模拟考试题答案)

3.4 拆分后的训练集和验证集特征工程

二选一：

用词袋模型，把训练集和验证集进行特征工程变为向量。

x_train = co.transform(x_train)

x_test = co.transform(x_test)

#查看训练集中的一个数据

x_train[1]

用 TF-IDF 模型，把训练集和验证集进行特征工程变为向量。

x_train = tf.transform(x_train)

x_test = tf.transform(x_test)

x_train[1]

4. 构建分类器算法

4.1 多项式朴素贝叶斯分类器

from sklearn.naive_bayes import MultinomialNB

classifier = MultinomialNB()

classifier.fit(x_train,y_train)

print('词袋方法进行文本特征工程，使用sklearn默认的多项式朴素贝叶斯分类器，验证集上的预测正确率', classifier.score(x_test,y_test))

4.2 逻辑回归分类器

from sklearn.linear_model import LogisticRegression

#实例化一个逻辑回归类

lgl = LogisticRegression()

#训练模型

lgl.fit(x_train,y_train)

#预测正确率

print('词袋方法进行文本特征工程，使用sklearn默认的逻辑回归分类器，验证集上的预测正确率',lgl.score(x_test,y_test))

4.3 增加了2个参数的逻辑回归分类器

lg2 = LogisticRegression(C=3,dual=True,solver='liblinear')

超参数的网格搜索 GridSearchCV

在逻辑回归中增加C和dual这两个参数可以提高验证集上的预测准确率，每次手动太麻烦。

使用sklearn提供强大的网格搜索功能进行超参数的批量试验。

搜索空间：1-9。对每一个C，都分别尝试dual为True和False的两种参数。

最后从所有参数中跳出能够使模型在验证集预测准确率最高的。

from sklearn.model_selection import GridSearchCV

param_grid = { 'C':range(1,10),

'dual':[True,False]

}

lgGS = LogisticRegression()

grid = GridSearchCV(lgGS, param_grid=param_grid,cv=3, n_jobs=-1)

grid.fit(x_train,y_train)

#最优参数

grid.best_params_

#获取最佳模型

lg_final = grid.best_estimator_

print('经过网格搜索，找到最优超参数组合对应的逻辑回归模型，在验证集上的预测正确率', lg_final.score(x_test,y_test))

5. 对测试集的数据进行预测

#使用TF-IDF对测试集中的文本进行特征工程

test_X = tf.transform(data_test['Phrase'])

# 对测试集中的文本，使用lg_final逻辑回归分类器进行预测

predictions = lg_final.predict(test_X)

# 查看预测结果

predictions

#将测试结果加在测试集中

data_test.loc[:, 'Sentiment'] = predictions

data_test.head()

6. 按照kaggle比赛官网的要求整理格式

#loc通过索引标签来抽取数据：

final_data = data_test.loc[:,['PhraseId','Sentiment']]

final_data.head()

#保存为.csv文件，即为最终结果

final_data.to_csv('final_data.csv',index=None)

疑问

lg2 = LogisticRegression(C=3,dual=True)

这语句会报错，不知道什么原因？

留坑！！ !

东东嘿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫