⾃然语⾔与查询 Recall
● 当处理⼈类⾃然语⾔时,有些情况,尽管搜索和原⽂不完全匹配,但是希望搜到⼀些内容
● Quick brown fox 和 fast brown fox / Jumping fox 和 Jumped foxes
● ⼀些可采取的优化
● 归⼀化词元:清除变⾳符号,如 rôle 的时候也会匹配 role
● 抽取词根:清除单复数和时态的差异
● 包含同义词
● 拼写错误:拼写错误,或者同⾳异形词
混合多语⾔的挑战
● ⼀些具体的多语⾔场景
● 不同的索引使⽤不同的语⾔ / 同⼀个索引中,不同的字段使⽤不同的语⾔ / ⼀个⽂档的⼀个字段内混合不同的语⾔
● 混合语⾔存在的⼀些挑战
● 词⼲提取:以⾊列⽂档,包含了希伯来语,阿拉伯语,俄语和英⽂
● 不正确的⽂档频率 – 英⽂为主的⽂章中,德⽂算分⾼(稀有)
● 需要判断⽤户搜索时使⽤的语⾔,语⾔识别(Compact Language Detector)
● 例如,根据语⾔,查询不同的索引