Python做文本情感分析之情感极性分析_python情感极性分析有哪些常用方法

否定词的出现将直接将句子情感转向相反的方向,而且通常效用是叠加的。常见的否定词:不、没、无、非、莫、弗、勿、毋、未、否、别、無、休、难道等。

1.1.3 程度副词词典

既是通过打分的方式判断文本的情感正负,那么分数绝对值的大小则通常表示情感强弱。既涉及到程度强弱的问题,那么程度副词的引入就是势在必行的。词典可从《知网》情感分析用词语集(beta版)下载。词典内数据格式可参考如下格式,即共两列,第一列为程度副词,第二列是程度数值,> 1表示强化情感,< 1表示弱化情感。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

程度副词词典

1.1.4 停用词词典

科院计算所中文自然语言处理开放平台发布了有1208个停用词的中文停用词表,也有其他不需要积分的下载途径

1.2 数据预处理
1.2.1 分词

即将句子拆分为词语集合,结果如下:
e.g. 这样/的/酒店/配/这样/的/价格/还算/不错

Python常用的分词工具:

  • 结巴分词 Jieba
  • Pymmseg-cpp
  • Loso
  • smallseg
`from collections import defaultdict
import os
import re
import jieba
import codecs

"""
1. 文本切割
"""

def sent2word(sentence):
 """
 Segment a sentence to words
 Delete stopwords
 """
 segList = jieba.cut(sentence)
 segResult = []
 for w in segList:
 segResult.append(w)

 stopwords = readLines('stop\_words.txt')
 newSent = []
 for word in segResult:
 if word in stopwords:
 # print "stopword: %s" % word
 continue
 else:
 newSent.append(word)

 return newSent`

在此笔者使用Jieba进行分词。

1.2.2 去除停用词

遍历所有语料中的所有词语,删除其中的停用词
e.g. 这样/的/酒店/配/这样/的/价格/还算/不错

  • 16
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值