基于gensim的lda实践2

import pandas as pd
import jieba
from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel

def jieba_add_words():
    """
    在jieba中加入新词。
    运行该函数,add-word.txt中的词将被作为一个词而切出来
    """
    with open("datasets/add-word.txt") as f:
        for w in f.readlines():
            jieba.add_word(w.strip())


def my_func(tag):
    """
    训练某个具体关键经历标签的分类模型。
    
    input:tag-标签的中文
    """
    # 1000个样本中的'组建团队'
    df1 = pd.read_excel('LDA-data/关键经历_测试样本_0725 (自动保存的).xlsx', sheet_name='1000样本')
    df2 = pd.read_excel('LDA-data/关键经历_测试样本0731_新增规则.xlsx', sheet_name='Sheet1')
    if tag == 'all':
        data1 = df1[['经历','标签','是否匹配']].copy()
        # 107个样本中的'组建团队'
        data2 = df2[['经历','标签','是否匹配']].copy()
    else:
        data1 = df1[(df1['标签']=="组建团队")|(df1['标签']=="市场开拓")|(df1['标签']=="危机处理")].copy()
        # 107个样本中的'组建团队'
        data2 = df2[(df2['标签']=="组建团队")|(df2['标签']=="市场开拓")|(df2['标签']=="危机处理")].copy()
    # 将两个来源的数据合并
    data = pd.concat([data1, data2])
    data['tag'] = data['是否匹配'].map({'Y':1, 'N':0})
    
    # 加载停用词
    with open('LDA-data/stop_words.txt','r',encoding='utf8') as f:
        words = f.read()
    stop_list = set(words.splitlines())
    stop_list.add(" ")
    
    # 切词并去除停用词
    # jieba_add_words() ##暂时没有特别需要切出来的词
    data['tmp'] = data['经历'].apply(lambda x: [i for i in list(jieba.cut(x)) if i not in stop_list])
    data['exp'] = data['tmp'].apply(lambda x: ' '.join(x))
    
    print(data["exp"].tolist()[:3])
    return data["exp"].tolist()

exp_corpus = my_func("some")

texts = [i.split() for i in exp_corpus]
dct = Dictionary(texts)
corpus = [dct.doc2bow(text) for text in texts]

# 组建团队,市场开拓,危机处理
lda = LdaModel(corpus, num_topics=3, id2word=dct)
# Print the most contributing words for 3 topics
lda.print_topics(num_topics=3, num_words=10)

[(0,
‘0.028*“新” + 0.021*“业务” + 0.020*“公司” + 0.019*“市场” + 0.017*“客户” + 0.015*“团队” + 0.015*“开发” + 0.013*“负责” + 0.013*“维护” + 0.013*“我”’),
(1,
‘0.025*“处理” + 0.023*“市场” + 0.021*“重大” + 0.019*“危机” + 0.015*“公关” + 0.013*“负责” + 0.012*“管理” + 0.012*“团队” + 0.011*“销售” + 0.009*“公司”’),
(2,
‘0.032*“团队” + 0.020*“销售” + 0.019*“负责” + 0.018*“管理” + 0.018*“公司” + 0.010*“并” + 0.010*“建立” + 0.010*“公关” + 0.010*“处理” + 0.010*“开拓”’)]

观察输出的结果,发现第二个主题比较明显是“危机公关”,但是“市场开拓”,“组建团队”的主题并不明显,更不用说找同义词。虽然lda理论上可以找同义词,但是实际验证并不可行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值