Swoole加速结巴分词

最新推荐文章于 2021-04-05 17:32:23 发布

水行云起

最新推荐文章于 2021-04-05 17:32:23 发布

阅读量1k

点赞数

分类专栏：【PHP】【Swoole】

本文链接：https://blog.csdn.net/cpainter/article/details/101441697

版权

对于英文句子来说，可以通过空格来切分单词，如

// 今天天气不错
the weather is nice today

可以很简单的把该句子中的单词区分出来

the/weather/is/nice/today

在中文里面，就没有那么方便的区分方法了。当然，如果你习惯这样说话：

今天 天气 不错

大家也不会打你，只会觉得你像个“结巴”（点题了！）

在中文里面的字和英文单词是两个不同的东西。在读书的时候，最痛苦的一件事就是学习文言文，我想了一下，有大于等于三个原因：

我们常说中文博大精深，历史原因就不细究了，简单来说就是，我们的祖先在中文上的造诣非常高，好几层楼那么高，研究非常透彻，一句话能说出几个意思。我们自小在中文环境下成长，经过千锤百炼，读写是没问题的，但是计算机要怎么理解一句话呢？先从分词开始。

计算机学习分词的过程，和人类是很像的（或许这是局限性），目前有几种：

我们学习中文的时候，也有这样的过程，

结巴分词是国内程序员用python开发的一个中文分词模块, 源码被托管在Github

为了方便说明，下面截取了部分文档和例子。

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print(

关注

专栏目录