Python+jieba+pandas+自己写的函数，简单实现用多个词典标注文本

最新推荐文章于 2024-08-20 15:00:34 发布

Sun_Weiss

最新推荐文章于 2024-08-20 15:00:34 发布

阅读量751

点赞数

分类专栏： Python 文章标签： python nlp

本文链接：https://blog.csdn.net/sun_weiss/article/details/106860370

版权

Python 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

做文本分析经常需要用词典标注，有时需要用很多个不同的词典做标注，每个词典单独跑一遍 or 每个词典都重新写代码显得很傻，所以我

1. 统一了词典的格式：用excel存储，第一列是关键词，这一列对所有词典都是必需的；后面列是标签（维度划分），可能有1个或多个标签;

2. 写了几个词典标注的函数，适用于：dict0-没有标签的词典；dict1-有一列标签的词典；dict2-有两列标签的词典。一般这几个就够用了，如果有更多的标签列，用相同的模式再写新的函数就行；

3. 每个词典都可以通过调用这几个函数来标注，代码也差不多，只要替换词典名就可以；

这是目前我能想出来的最好方法了，感觉还是有点笨，但还挺好用的，可拓展性也很强。

# -*- coding: utf-8 -*-
"""
Created on Fri Jun 12 10:26:19 2020

@author: weisssun
"""

import jieba
import pandas as pd
import re

#——————————————————————————————————————————————
#读取文件
input_path = r'./input_data/testfile.xlsx'
#原始数据路径
outpath = r'./output_data/testfile结果.xlsx'
#输出数据路径

#input_data = pd.read_excel(input_path, sheet_name = '数据')
input_data = pd.read_excel(input_path)
#读取原始数据，根据需要修改或删除sheet_name

output_data = pd.DataFrame(columns=['序号','原始文本',
                                    '词典零标注结果','词典零命中词数量',
                                    '词典一标注结果','词典一命中词数量','词典一维度', 
                                    #这里最好把词典维度按自己需要的顺序命名好列名，否则出来的标注结果，不同词典会混在一起
                                    '词典二标注结果','词典二命中词数量','词典二维度'])

#——————————————————————————————————————————————
#读取停用词和用户词典

stopw = [line.strip() for line in open(r'./dict/stopwords.txt',encoding='utf-8').readlines()]
#读取停用词词典
jieba.load_userdict(r"./dict/userdict.txt")
#读取用户词典

#——————————————————————————————————————————————
#读取标注词典
zerodict = pd.read_excel(r'./dict/词典零.xlsx')
#词典零，只有一列关键词，没有标签
firstdict = pd.read_excel(r'./dict/词典一.xlsx')
#词典一，有一列关键词，一列标签
seconddict = pd.read_excel(r'./dict/词典二.xlsx')
#词典二，有一列关键词，两列标签

#——————————————————————————————————————————————
####################
#以下是用到的函数的定义

#定义分词函数

def segment(content, filter):

    seg_list = jieba.cut(content)
    #使用jieba分词
    results=[]
    #定义空列表results，将分词并过滤后的词存在results中
    for seg in seg_list:
        seg = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。：“”、~@#￥%……&*（）【】{}？]+", "", seg)
        #过滤标点符号
        if (seg != '' and seg != "\n" and seg != "\n\n"):
            results.append(seg)
            #如果seg不为空值，将过滤后的词增加到words中

    results = [word for word in results if word not in stopw] #去除停用词

    return results


#定义一个字典计数保存的函数

def dict_append(a, dict_a):
    if a not in dict_a.keys():
        dict_a[a] = 1
    else:
        dict_a[a] += 1 
    return dict_a


#定义情绪词典命中函数，将评论内容和词典作为参数传入
#根据词典的标签数量，调用对应的函数
    
def the_dict0(results, the_dict): 
#仅有关键词一列的词典

    word_num = 0
    #关键词数量
    word_info_list = []
    #保存关键词命中结果列表

    for word in results: 
        #对分词结果中的每一个词
        word_index = the_dict.loc[the_dict[the_dict.columns[0]] == word].index
        #定位这个词在词典中的位置，获取索引
        
        if any(word_index != None):
            #如果索引不为空
            theword = word
            #这个词是关键词
            word_num += 1
            #关键词数 +1
            word_info = theword + ';'
            #将命中的关键词保存起来
            word_info_list.append(word_info) 
            #添加到关键词命中结果列表中
    
    return word_num, word_info_list
    #返回关键词词数量、关键词命中结果列表


def the_dict1(results, the_dict):
#有一列关键词，一列标签的词典
    
    word_num = 0
    #关键词数量
    label1_dict = {}
    #标签1及数量的字典
    word_info_list = []
    #保存关键词命中结果列表

    for word in results: 
        #对分词结果中的每一个词
        word_index = the_dict.loc[the_dict[the_dict.columns[0]] == word].index
        #定位这个词在词典中的位置，获取索引
        
        if any(word_index != None):
            #如果索引不为空
            theword = word
            #这个词是关键词
            word_num += 1
            #关键词数 +1
            
            word_label1 = the_dict.loc[word_index, the_dict.columns[1]].values
            word_label1 = ''.join(word_label1)
            #关键词的标签1，是索引行，标签1列的单元格值
            #将 numpy.ndarray对象转化为字符串
            label1_dict = dict_append(word_label1, label1_dict)
            #调用 dict_append函数，将标签1和数量保存为字典
            
            word_info = theword + '：' + word_label1 + ';'
            #将命中的关键词、关键词的标签1保存起来
            word_info_list.append(word_info) 
            #添加到关键词命中结果列表中
        
    return word_num, label1_dict, word_info_list
    #返回关键词词数量、标签1数量词典、关键词命中结果列表


def the_dict2(results, the_dict): 
#有一列关键词，两列标签的词典

    word_num = 0
    #关键词数量
    label1_dict = {}
    #标签1及数量的字典
    label2_dict = {}
    #标签2及数量的字典
    word_info_list = []
    #保存关键词命中结果列表

    for word in results: 
        #对分词结果中的每一个词
        word_index = the_dict.loc[the_dict[the_dict.columns[0]] == word].index
        #定位这个词在词典中的位置，获取索引
        
        if any(word_index != None):
            #如果索引不为空
            theword = word
            #这个词是关键词
            word_num += 1
            #关键词数 +1
            
            word_label1 = the_dict.loc[word_index, the_dict.columns[1]].values
            word_label1 = ''.join(word_label1)
            #关键词的标签1，是索引行，标签1列的单元格值
            #将 numpy.ndarray对象转化为字符串
            label1_dict = dict_append(word_label1, label1_dict)
            #调用 dict_append函数，将标签1和数量保存为字典
            
            word_label2 = the_dict.loc[word_index, the_dict.columns[2]].values
            word_label2 = ''.join(word_label2)
            #关键词的标签2，是索引行，标签1列的单元格值
            #将 numpy.ndarray对象转化为字符串
            label2_dict = dict_append(word_label2, label2_dict)
            #调用 dict_append函数，将标签1和数量保存为字典
            
            word_info = theword + '：' + word_label1 + '-' + word_label2 + ';'
            #将命中的关键词、关键词的标签1保存起来
            word_info_list.append(word_info) 
            #添加到关键词命中结果列表中
    
    return word_num, label1_dict, label2_dict, word_info_list
    #返回关键词词数量、标签1数量词典、标签2数量词典、关键词命中结果列表   

#——————————————————————————————————————————————
    
#读取数据并处理

contents_num = len(input_data)
for i in range(contents_num):
    order_id = input_data.loc[i, '序号']
    #读取原始序号
    content = str(input_data.loc[i, '原始文本'])
    #读取原始文本
    output_data.loc[i, '序号'] = order_id
    #保存序号
    output_data.loc[i, '原始文本'] = content
    #保存原始文本
    
    results = segment(content, 0)
    #将原始文本分词

    zerodict_word_num, zerodict_word_info_list = the_dict0(results, zerodict)
    #调用函数dict0，用词典零标注分词结果
    output_data.loc[i, '词典零标注结果'] = ' '.join(zerodict_word_info_list)
    #保存词典标注结果
    output_data.loc[i, '词典零命中词数量'] = zerodict_word_num
    #保存标注词的数量
    
    firstdict_word_num, firstdict_label1_dict, firstdict_word_info_list = the_dict1(results, firstdict)
    #调用函数dict1，用词典一标注分词结果
    output_data.loc[i, '词典一标注结果'] = ' '.join(firstdict_word_info_list)
    output_data.loc[i, '词典一命中词数量'] = firstdict_word_num
    for k, v in firstdict_label1_dict.items():
        output_data.loc[i, k] = v
        #保存不同维度的标注数量

    seconddict_word_num, seconddict_label1_dict, seconddict_label2_dict, seconddict_word_info_list = the_dict2(results, seconddict)
    #调用函数dict2，用词典二标注分词结果
    output_data.loc[i, '词典二标注结果'] = ' '.join(seconddict_word_info_list)
    output_data.loc[i, '词典二命中词数量'] = seconddict_word_num
    for k, v in seconddict_label1_dict.items():
        output_data.loc[i, k] = v
    for k, v in seconddict_label2_dict.items():
        output_data.loc[i, k] = v

#——————————————————————————————————————————————
#保存结果  
output_data.to_excel(outpath)

Sun_Weiss

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python+jieba+pandas+自己写的函数，简单实现用多个词典标注文本

做文本分析经常需要用词典标注，有时需要用很多个不同的词典做标注，每个词典单独跑一遍 or 每个词典都重新写代码显得很傻，所以我1. 统一了词典的格式：用excel存储，第一列是关键词，这一列对所有词典都是必需的；后面列是标签（维度划分），可能有1个或多个标签;2. 写了几个词典标注的函数，适用于：dict0-没有标签的词典；dict1-有一列标签的词典；dict2-有两列标签的词典。一般这几个就够用了，如果有更多的标签列，用相同的模式再写新的函数就行。3. 每个词典都可以通过调用这几个函数来标注
复制链接

扫一扫

专栏目录