CCF BDCI 互联网新闻情感分析

import pandas as pd
import warnings
warnings.filterwarnings(‘ignore’)

“”"
功能:分析互联网新闻情感,并贴上标签
0:正面情感
1:中性情感
2:负面情感
“”"
#读取训练集数据
data_train = pd.read_csv(’./Train_DataSet.csv’)
#读取测试集数据
data_test = pd.read_csv(’./Test_DataSet.csv’)

#构建语料库,将训练集和测试集的内容都提取出来
train_sentences = data_train[‘content’]
test_sentences = data_test[‘content’]
#把文本内容合并
sentences = pd.concat([train_sentences,test_sentences])
#提取训练集中的情感标签
label = data_train[‘label’]

#导入停词库,对于一些语气词,可以不做分析,因为对情感分析没有帮助
stopwords = open(’./stopwords.txt’,encoding = ‘utf-8’).read().splitlines()

#用sklearn库中的CountVectorizer构建词袋模型
#analyzer = ‘word’指的是以词为单位进行分析,对于拉丁语系语言,有时需要以字母‘character’为单位进行分析
#ngram指分析相邻的几个词,避免原始的词袋模型中词序丢失问题
#max_features指最终的词袋矩阵里包含语料库中出现次

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值