python+word2vec+随机森林微博文本情感极性分析（一）

最新推荐文章于 2022-12-10 16:02:32 发布

e卵石

最新推荐文章于 2022-12-10 16:02:32 发布

阅读量6.2k

点赞数 4

本文链接：https://blog.csdn.net/qq_33476409/article/details/88689592

版权

使用36万条微博文本数据，通过Python的word2vec训练词向量，对文本进行情感极性分析。将句子表示为词向量，然后应用PCA降维，接着使用随机森林弱分类器训练200次，最终达到AUC=0.86的性能。ROC曲线用于评估模型表现。

摘要由CSDN通过智能技术生成

数据源：36万条微博文本，已标注情感。源数据中label0：开心，label1-3：低落或忧伤。本文只考虑情感正负极性，所以1-3都划为负样本。
项目思路：分词后利用gensim.models.word2vec训练词向量，词向量表示训练集文本，sklearn训练随机森林模型，auc=0.86。

加载相关python包：

import jieba
import re
import pandas as pd
from gensim.models import word2vec
import numpy as np
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier as RF
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve,auc
from sklearn.cross_validation import train_test_split

word2vec训练词向量

利用这36万微博数据训练词向量，word2vec需要语料分词。

data = pd.read_csv('F:/weibo_4_moods.csv',delimiter=',',header=0,encoding='utf-8')
file_train = 'F:/word_train.txt'
def get_word_train(filename):
    with open(filename,'w',encoding='utf-8') as f:
        for line in data['review']:
            word_l = ' '.join(jieba.cut(line,cut_all=False))
            word_l.replace(u'，',u''</

最低0.47元/天解锁文章

e卵石

关注

4
点赞
踩
67

收藏

觉得还不错? 一键收藏
5
评论
python+word2vec+随机森林微博文本情感极性分析（一）

数据源：36万条微博文本，已标注情感。0：开心，1-3：低落或忧伤。本文只考虑情感正负极性。项目思路：分词后利用gensim.models.word2vec训练词向量，词向量表示训练集文本，分别用sklearn训练SVM及tensorflow训练CNN模型，模型调优、比较及评估。加载相关python包：import jiebaimport reimport pandas as pdfr...
复制链接

扫一扫