文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。
一、传统模型
基于字面匹配
- 字面距离:字符串有字符构成,只要比较两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。
- 主要方法:TF-IDF、BM25 、simhash
语义匹配
- LSA类模型 通过LSA得到的文本主题矩阵可以用于文本相似度计算,而计算方法一般是通过余弦相似度。
二、文本距离的概念(计算向量间的距离)
- 欧几里德距离
- 曼哈顿距离
- 切比雪夫距离