1、流程:
①对于两个文本,通过特征提取的模型或手动实现,找出两个文本的关键字;
②从每个文本中各取出若干个关键词,把这些关键词合并成成一个集合,计算每个文本中各个词对于这个集合中的关键词的词频;
③生成两个文本中各自的词频向量;
④计算相似度,相似度的值越大表示越相似。
2、文本相似度计算方法:
①曼哈顿距离
②欧氏距离
③切比雪夫距离
④夹角余弦
⑤Jaro距离
⑥马氏距离
⑦杰卡德相似度
1、流程:
①对于两个文本,通过特征提取的模型或手动实现,找出两个文本的关键字;
②从每个文本中各取出若干个关键词,把这些关键词合并成成一个集合,计算每个文本中各个词对于这个集合中的关键词的词频;
③生成两个文本中各自的词频向量;
④计算相似度,相似度的值越大表示越相似。
2、文本相似度计算方法:
①曼哈顿距离
②欧氏距离
③切比雪夫距离
④夹角余弦
⑤Jaro距离
⑥马氏距离
⑦杰卡德相似度