近一个月主要研究文本内容的相似度
考虑的主要方法为:
jaccard distance
cosine similarity
simHash
minHash
some tricks:simple but efficient
simhash:
官方的simhash并不大支持中文:
中文版并不支持索引 没有索引的simhash不算simhash哈
因此直接利用官方的,加入结巴分词提取关键字及权重即可:
#simhash
def t2():
cFile=open('7dataSingle.txt').read()
lines=cFile.splitlines()
initList=[]
line =lines[0]
line=line.split('\t')
content=bs(line[2]).get_text().encode('utf-8')
kwList=jcut.extract_tags(content,20,True)
initList.append((line[0].strip(),Simhash(kwList)))
index=SimhashIndex(initList,64,3)
for line in lines:
line=line.