百度搜索引擎中文分词与文本粒度

而关于查找引擎而言,想要给用户最需要的就需要去判别用户查找词的目的。而查找引擎尽管十分高效,数据库十分巨大,但它究竟不是那么智能,不能直接判别出查找词的意思,尽管google已发布能够凭借愈加杂乱的查找恳求非常好的了解人类言语的概念,而不是一些零星的单词,这样的查找能供给愈加精准的成果,即整句查找。但这仅仅一小步,查找引擎不论是进行索引仍是页面排序仍需要对文本进行切分,即中文分词。分词仍然是最根底也是最重要的。而在中文分词过程中文本粒度起到关键性的效果。

文本粒度

所谓文本粒度,关于查找引擎而言:粒度是衡量文本所含信息量的巨细。文本含信息量越多,粒度就越大,反之就小。有人会说那简略啊,当然词越长含有的信息量就越大,你断定?那木木SEO通知你一个小玩意:肌联蛋白是当前已知的最大蛋白质,姓名足足有189819个字母,是当之无愧最大的单词。这个单词的信息量是有多大?闲话不多说,先来看下面几组词中,哪些的粒度大,哪些的粒度小。

萝卜、葡萄、乒乓

龙井、篮球、赤色、橡皮檫

踢球、拔河、谈恋爱、爬山

高清电视机、南非双人游、呼叫中间体系

榜首组词由两个字组成,可是仅表达一个意思,这些词的粒度是小的。而第二组词尽管也根本由两个字组成,也只要一个意思,但这些词还能够拆分,如篮和球、橡皮和檫、踢和球等,这类词粒度要略微大一些。然后面的第四组,不要说粒度就更大了。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值