我的学习笔记:机器学习(01)文本情感分析
菜鸟学习中,大神请指教!
最近在学习文本的情感分析,学习了很多大神的笔记和心得, 颇有收获!
- 使用jieba对文档分词
- 读取停用词文件,去除停用词
- 对分词结果分类:情感词、否定词、程度副词
- 将情感字典的key转为list
- 遍历计算得分
from collections import defaultdict
import os
import re
import jieba
import codecs
def seg_word(sentence):
"""使用jieba对文档分词"""
seg_list = jieba.cut(sentence)
seg_result = []
for w in seg_list:
seg_result.append(w)
# 读取停用词文件
stopwords = set()
fr = codecs.open('data/stopwords.txt', 'r', 'gbk')
for word in fr:
stopwords.add(word.strip())
fr.close()
# 去除停用词
return list(filter(lambda x: x not in stopwords, seg_result))
# 对分词结果分类:情感词、否定词、程度副词
# key为索引,value为权值
def classify_words(word_list):
sen_file = open('BosonNLP_sentiment_score.txt