文本粒度
所谓文本粒度,关于查找引擎而言:粒度是衡量文本所含信息量的巨细。
文本含信息量越多,粒度就越大,反之就小。
有人会说那简略啊,当然词越长含有的信息量就越大,你断定?
举例:肌联蛋白是当前已知的最大蛋白质,姓名足足有189819个字母,是当之无愧最大的单词。这个单词的信息量是有多大?闲话不多说,先来看下面几组词中,哪些的粒度大,哪些的粒度小。
萝卜、葡萄、乒乓
龙井、篮球、赤色、橡皮檫
踢球、拔河、谈恋爱、爬山
高清电视机、南非双人游、呼叫中间体系
榜首组词由两个字组成,可是仅表达一个意思,这些词的粒度是小的。而第二组词尽管也根本由两个字组成,也只要一个意思,但这些词还能够拆分,如篮和球、橡皮和檫、踢和球等,这类词粒度要略微大一些。然后面的第四组,不要说粒度就更大了。
而关于查找引擎而言,想要给用户最需要的就需要去判别用户查找词的目的。而查找引擎尽管十分高效,数据库十分巨大,但它究竟不是那么智能,不能直接判别出查找词的意思,尽管google已发布能够凭借愈加杂乱的查找恳求非常好的了解人类言语的概念,而不是一些零星的单词,这样的查找能供给愈加精准的成果,即整句查找。但这仅仅一小步,查找引擎不论是进行索引仍是页面排序仍需要对文本进行切分,即中文分词。分词仍然是最根底也是最重要的。而在中文分词过程中文本粒度起到关键性的效果。