比如搜索“字符串的正则如何进行操作”,只搜索title方面的,那么有这些title,“字符串的获取坐标如何进行操作”,“字符串的正则的基本方法都有什么”,那么很显然第二个是应该被搜索的,但是从基本的字数的计算概念来看,每个句子的相似度都差不多,如何让计算机进行判断,但从这个句子中,字符串是名词,正则也是名词,首先要进行名词的匹配,我查了下,汉字常用字大概两千~三千多,常用词大概五万多,一方面字符串这个词后面可能是什么词不可能是什么词,另一方面比如刘德华为什么不在太阳上面唱歌....就会被检测为刘德..华为..什么....如何进行断句也是一个问题,英语在这方面就比较简单,都是一个个的单词。还有比如有“字符串的正则如何进行操作”,“字符串的正则的基本方法都有什么”,但从字数上面看第一个的匹配度较多,但是可能第二个其中的内容更好,如何对内容进行判断
Elasticsearch
最新推荐文章于 2024-09-29 16:19:38 发布