基于gensim的lda实践2

最新推荐文章于 2022-04-04 18:19:26 发布

salt2020

最新推荐文章于 2022-04-04 18:19:26 发布

阅读量266

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/guo_ya_nan/article/details/104040544

版权

nlp 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

import pandas as pd
import jieba
from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel

def jieba_add_words():
    """
    在jieba中加入新词。
    运行该函数，add-word.txt中的词将被作为一个词而切出来
    """
    with open("datasets/add-word.txt") as f:
        for w in f.readlines():
            jieba.add_word(w.strip())


def my_func(tag):
    """
    训练某个具体关键经历标签的分类模型。
    
    input：tag-标签的中文
    """
    # 1000个样本中的'组建团队'
    df1 = pd.read_excel('LDA-data/关键经历_测试样本_0725 (自动保存的).xlsx', sheet_name='1000样本')
    df2 = pd.read_excel('LDA-data/关键经历_测试样本0731_新增规则.xlsx', sheet_name='Sheet1')
    if tag == 'all':
        data1 = df1[['经历','标签','是否匹配']].copy()
        # 107个样本中的'组建团队'
        data2 = df2[['经历','标签','是否匹配']].copy()
    else:
        data1 = df1[(df1['标签']=="组建团队")|(df1['标签']=="市场开拓")|(df1['标签']=="危机处理")].copy()
        # 107个样本中的'组建团队'
        data2 = df2[(df2['标签']=="组建团队")|(df2['标签']=="市场开拓")|(df2['标签']=="危机处理")].copy()
    # 将两个来源的数据合并
    data = pd.concat([data1, data2])
    data['tag'] = data['是否匹配'].map({'Y':1, 'N':0})
    
    # 加载停用词
    with open('LDA-data/stop_words.txt','r',encoding='utf8') as f:
        words = f.read()
    stop_list = set(words.splitlines())
    stop_list.add(" ")
    
    # 切词并去除停用词
    # jieba_add_words() ##暂时没有特别需要切出来的词
    data['tmp'] = data['经历'].apply(lambda x: [i for i in list(jieba.cut(x)) if i not in stop_list])
    data['exp'] = data['tmp'].apply(lambda x: ' '.join(x))
    
    print(data["exp"].tolist()[:3])
    return data["exp"].tolist()

exp_corpus = my_func("some")

texts = [i.split() for i in exp_corpus]
dct = Dictionary(texts)
corpus = [dct.doc2bow(text) for text in texts]

# 组建团队，市场开拓，危机处理
lda = LdaModel(corpus, num_topics=3, id2word=dct)
# Print the most contributing words for 3 topics
lda.print_topics(num_topics=3, num_words=10)

[(0,
‘0.028*“新” + 0.021*“业务” + 0.020*“公司” + 0.019*“市场” + 0.017*“客户” + 0.015*“团队” + 0.015*“开发” + 0.013*“负责” + 0.013*“维护” + 0.013*“我”’),
(1,
‘0.025*“处理” + 0.023*“市场” + 0.021*“重大” + 0.019*“危机” + 0.015*“公关” + 0.013*“负责” + 0.012*“管理” + 0.012*“团队” + 0.011*“销售” + 0.009*“公司”’),
(2,
‘0.032*“团队” + 0.020*“销售” + 0.019*“负责” + 0.018*“管理” + 0.018*“公司” + 0.010*“并” + 0.010*“建立” + 0.010*“公关” + 0.010*“处理” + 0.010*“开拓”’)]

观察输出的结果，发现第二个主题比较明显是“危机公关”，但是“市场开拓”，“组建团队”的主题并不明显，更不用说找同义词。虽然lda理论上可以找同义词，但是实际验证并不可行。

salt2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
基于gensim的lda实践2

import pandas as pdimport jiebafrom gensim.test.utils import common_textsfrom gensim.corpora.dictionary import Dictionaryfrom gensim.models.ldamodel import LdaModeldef jieba_add_words(): """...
复制链接

扫一扫