我的学习笔记：机器学习（01）文本情感分析

最新推荐文章于 2022-02-09 17:59:14 发布

AWM_89

最新推荐文章于 2022-02-09 17:59:14 发布

阅读量821

点赞数 1

分类专栏： Python 文章标签：自然语言处理 python 机器学习

本文链接：https://blog.csdn.net/Youth_89/article/details/106034030

版权

本文档记录了作者学习文本情感分析的过程，包括使用jieba进行分词，去除停用词，对分词结果分类，并进行了情感得分计算。学习资源来源于多位博主的分享，目前处于学习阶段，欢迎交流指正。

摘要由CSDN通过智能技术生成

我的学习笔记：机器学习（01）文本情感分析

菜鸟学习中，大神请指教！

最近在学习文本的情感分析，学习了很多大神的笔记和心得，颇有收获！

使用jieba对文档分词
读取停用词文件，去除停用词
对分词结果分类：情感词、否定词、程度副词
将情感字典的key转为list
遍历计算得分

from collections import defaultdict
import os
import re
import jieba
import codecs
def seg_word(sentence):
    """使用jieba对文档分词"""
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    # 读取停用词文件
    stopwords = set()
    fr = codecs.open('data/stopwords.txt', 'r', 'gbk')
    for word in fr:
        stopwords.add(word.strip())
    fr.close()
    # 去除停用词
    return list(filter(lambda x: x not in stopwords, seg_result))

# 对分词结果分类：情感词、否定词、程度副词
# key为索引，value为权值
def classify_words(word_list):
    sen_file = open('BosonNLP_sentiment_score.txt