文本粒度

最新推荐文章于 2023-12-27 18:07:51 发布

SimonChenHere

最新推荐文章于 2023-12-27 18:07:51 发布

阅读量1.5k

点赞数 2

分类专栏： NLP 文章标签：粒度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40199232/article/details/107237953

版权

NLP 专栏收录该内容

15 篇文章

订阅专栏

文本粒度

所谓文本粒度，关于查找引擎而言：粒度是衡量文本所含信息量的巨细。
文本含信息量越多，粒度就越大，反之就小。
有人会说那简略啊，当然词越长含有的信息量就越大，你断定？

举例：肌联蛋白是当前已知的最大蛋白质，姓名足足有189819个字母，是当之无愧最大的单词。这个单词的信息量是有多大？闲话不多说，先来看下面几组词中，哪些的粒度大，哪些的粒度小。

萝卜、葡萄、乒乓

龙井、篮球、赤色、橡皮檫

踢球、拔河、谈恋爱、爬山

高清电视机、南非双人游、呼叫中间体系

榜首组词由两个字组成，可是仅表达一个意思，这些词的粒度是小的。而第二组词尽管也根本由两个字组成，也只要一个意思，但这些词还能够拆分，如篮和球、橡皮和檫、踢和球等，这类词粒度要略微大一些。然后面的第四组，不要说粒度就更大了。

而关于查找引擎而言，想要给用户最需要的就需要去判别用户查找词的目的。而查找引擎尽管十分高效，数据库十分巨大，但它究竟不是那么智能，不能直接判别出查找词的意思，尽管google已发布能够凭借愈加杂乱的查找恳求非常好的了解人类言语的概念，而不是一些零星的单词，这样的查找能供给愈加精准的成果，即整句查找。但这仅仅一小步，查找引擎不论是进行索引仍是页面排序仍需要对文本进行切分，即中文分词。分词仍然是最根底也是最重要的。而在中文分词过程中文本粒度起到关键性的效果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SimonChenHere 打赏奖励，以资鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。