import pandas as pd
import jieba
from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel
def jieba_add_words():
"""
在jieba中加入新词。
运行该函数,add-word.txt中的词将被作为一个词而切出来
"""
with open("datasets/add-word.txt") as f:
for w in f.readlines():
jieba.add_word(w.strip())
def my_func(tag):
"""
训练某个具体关键经历标签的分类模型。
input:tag-标签的中文
"""
# 1000个样本中的'组建团队'
df1 = pd.read_excel('LDA-data/关键经历_测试样本_0725 (自动保存的).xlsx', sheet_name='1000样本')
df2 = pd.read_excel('LDA-data/关键经历_测试样本0731_新增规则.xlsx', sheet_name='Sheet1')
if tag == 'all':
data1 = df1[['经历','标签','是否匹配']].copy()
# 107个样本中的'组建团队'
data2 = df2[['经历','标签','是否匹配']].copy()
else:
data1 = df1[(df1['标签']=="组建团队")|(df1['标签']=="市场开拓")|(df1['标签']=="危机处理")].copy()
# 107个样本中的'组建团队'
data2 = df2[(df2['标签']=="组建团队")|(df2['标签']=="市场开拓")|(df2['标签']=="危机处理")].copy()
# 将两个来源的数据合并
data = pd.concat([data1, data2])
data['tag'] = data['是否匹配'].map({'Y':1, 'N':0})
# 加载停用词
with open('LDA-data/stop_words.txt','r',encoding='utf8') as f:
words = f.read()
stop_list = set(words.splitlines())
stop_list.add(" ")
# 切词并去除停用词
# jieba_add_words() ##暂时没有特别需要切出来的词
data['tmp'] = data['经历'].apply(lambda x: [i for i in list(jieba.cut(x)) if i not in stop_list])
data['exp'] = data['tmp'].apply(lambda x: ' '.join(x))
print(data["exp"].tolist()[:3])
return data["exp"].tolist()
exp_corpus = my_func("some")
texts = [i.split() for i in exp_corpus]
dct = Dictionary(texts)
corpus = [dct.doc2bow(text) for text in texts]
# 组建团队,市场开拓,危机处理
lda = LdaModel(corpus, num_topics=3, id2word=dct)
# Print the most contributing words for 3 topics
lda.print_topics(num_topics=3, num_words=10)
[(0,
‘0.028*“新” + 0.021*“业务” + 0.020*“公司” + 0.019*“市场” + 0.017*“客户” + 0.015*“团队” + 0.015*“开发” + 0.013*“负责” + 0.013*“维护” + 0.013*“我”’),
(1,
‘0.025*“处理” + 0.023*“市场” + 0.021*“重大” + 0.019*“危机” + 0.015*“公关” + 0.013*“负责” + 0.012*“管理” + 0.012*“团队” + 0.011*“销售” + 0.009*“公司”’),
(2,
‘0.032*“团队” + 0.020*“销售” + 0.019*“负责” + 0.018*“管理” + 0.018*“公司” + 0.010*“并” + 0.010*“建立” + 0.010*“公关” + 0.010*“处理” + 0.010*“开拓”’)]
观察输出的结果,发现第二个主题比较明显是“危机公关”,但是“市场开拓”,“组建团队”的主题并不明显,更不用说找同义词。虽然lda理论上可以找同义词,但是实际验证并不可行。