Python SEO采集海量文本标题,用倒排索引找出“类似的标题“代码实现
作者:虚坏叔叔
博客:https://xuhss.com
早餐店不会开到晚上,想吃的人早就来了!😄
一、说明
假设这个是采集到的海量文本标题:
现在要判断找到的这个标题
title = "拜登称特朗普拒绝承认选举结果让尴尬"
和之前采集到的所有标题是否类似
二、伪代码实现
伪代码如下:
from collections import defaultdict
from math import cos
import jieba.posseg as pg
import numpy as np
import re
seen_title ={
'1':['拜登称特朗普拒绝承认选举结果令人尴尬'],
'2':['特朗普团队称出现死人票']
}
title_word ={
'1':['拜登','称','特朗普','拒绝','承认','选举','结果','令人','尴尬'],
'2':['特朗普','称','团队','出现','死人票']
}
word_id ={
'特朗普':set(['1','2']),
'拜登':set(['1']),
'团队':set(['2']),
'拒绝':set(['1'])
}
def count_cos(new_word,old_word):
return cos
def cos_dist(list_word1,list_word2):
"""
:param vec1: 向量1
:param vec2: 向量2
:return: 返回两个向量的余弦相似度
"""
# 列出所有的词,取并集
key_word = list(set(list_word1 + list_word2))
print<