中文自然语言处理--基于玻森情感词典自定义计算中文文本情感值

最新推荐文章于 2024-09-10 06:55:32 发布

糯米君_

最新推荐文章于 2024-09-10 06:55:32 发布

阅读量2.2k

点赞数 1

分类专栏：中文自然语言处理文章标签：情感词典 BosonNLP jieba分词情感值计算文本分析

本文链接：https://blog.csdn.net/fgg1234567890/article/details/115274471

版权

中文自然语言处理专栏收录该内容

41 篇文章 14 订阅

订阅专栏

使用玻森情感词典，来自定义计算一句话、或者一段文字的情感值。

BosonNLP_sentiment_score.txt下载链接：
https://download.csdn.net/download/fgg1234567890/16167065

import pandas as pd
import jieba

# 使用一个行业标准的情感词典——玻森情感词典，来自定义计算一句话、或者一段文字的情感值。
# 整个过程如下：
#   加载玻森情感词典；
#   jieba 分词；
#   获取句子得分。

# 加载情感词典
df = pd.read_table("./数据集/BosonNLP_sentiment_score.txt", sep= " ", names=['key','score'])
print(df.head())

# 将词 key 和对应得分 score 转成2个 list 列表，目的是找到词 key 的时候，能对应获取到 score 值
key = df['key'].values.tolist()
score = df['score'].values.tolist()

# 定义分词和统计得分函数
def getscore(line):
    segs = jieba.lcut(line)  #分词
    score_list  = [score[key.index(x)] for x in segs if(x in key)]
    return  sum(score_list)  #计算得分


line = "今天天气很好，我很开心"
print(round(getscore(line), 2))

line = "今天下雨，心情也受到影响。"
print(round(getscore(line), 2))