Doc2Vec,Word2Vec文本相似度初体验。

最新推荐文章于 2023-09-28 23:29:31 发布

coding-v

最新推荐文章于 2023-09-28 23:29:31 发布

阅读量477

点赞数

分类专栏： NLP 文章标签：自然语言处理 python 深度学习 nlp tensorflow

本文链接：https://blog.csdn.net/qq_33805714/article/details/109247752

版权

Doc2Vec,Word2Vec文本相似度计算。python3

接上篇（https://blog.csdn.net/qq_33805714/article/details/109247757）：

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%','：',
                        '/','\xa0','。','；','、']
        token_list_without_punctuations = [word for word in token_list