import pandas as pd
import warnings
warnings.filterwarnings(‘ignore’)
“”"
功能:分析互联网新闻情感,并贴上标签
0:正面情感
1:中性情感
2:负面情感
“”"
#读取训练集数据
data_train = pd.read_csv(’./Train_DataSet.csv’)
#读取测试集数据
data_test = pd.read_csv(’./Test_DataSet.csv’)
#构建语料库,将训练集和测试集的内容都提取出来
train_sentences = data_train[‘content’]
test_sentences = data_test[‘content’]
#把文本内容合并
sentences = pd.concat([train_sentences,test_sentences])
#提取训练集中的情感标签
label = data_train[‘label’]
#导入停词库,对于一些语气词,可以不做分析,因为对情感分析没有帮助
stopwords = open(’./stopwords.txt’,encoding = ‘utf-8’).read().splitlines()
#用sklearn库中的CountVectorizer构建词袋模型
#analyzer = ‘word’指的是以词为单位进行分析,对于拉丁语系语言,有时需要以字母‘character’为单位进行分析
#ngram指分析相邻的几个词,避免原始的词袋模型中词序丢失问题
#max_features指最终的词袋矩阵里包含语料库中出现次