我的学习笔记:机器学习(01)文本情感分析

本文档记录了作者学习文本情感分析的过程,包括使用jieba进行分词,去除停用词,对分词结果分类,并进行了情感得分计算。学习资源来源于多位博主的分享,目前处于学习阶段,欢迎交流指正。
摘要由CSDN通过智能技术生成

我的学习笔记:机器学习(01)文本情感分析

菜鸟学习中,大神请指教!

最近在学习文本的情感分析,学习了很多大神的笔记和心得, 颇有收获!

  1. 使用jieba对文档分词
  2. 读取停用词文件,去除停用词
  3. 对分词结果分类:情感词、否定词、程度副词
  4. 将情感字典的key转为list
  5. 遍历计算得分
from collections import defaultdict
import os
import re
import jieba
import codecs
def seg_word(sentence):
    """使用jieba对文档分词"""
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    # 读取停用词文件
    stopwords = set()
    fr = codecs.open('data/stopwords.txt', 'r', 'gbk')
    for word in fr:
        stopwords.add(word.strip())
    fr.close()
    # 去除停用词
    return list(filter(lambda x: x not in stopwords, seg_result))

# 对分词结果分类:情感词、否定词、程度副词
# key为索引,value为权值
def classify_words(word_list):
    sen_file = open('BosonNLP_sentiment_score.txt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值