SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开,所以如何准确并快速分词一直 是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的 中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块,可在 PHP 中快速而方便地使用分词功能。
一、安装SCWS
1、下载SCWS源码并解压到当前目录
wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.1.tar.bz2 | tar xjf -
2、进入源码目录配置和编译SCWS
cd scws-1.2.1
./configure --prefix=/usr/local/scws
make install
安装SCWS完成
二、安装SCWS的PHP扩展
1、进入scws-1.2.1的phpext目录,执行phpize
cd phpext
phpize
2、执行phpext目录下的configure配置并安装PHP扩展
./configure --with-scws=/usr/local/scws --with-php-config=/usr/bin/php-config
make install
执行 whereis php-config或 which php-config查找 php-config的位置
如果找不到,尝试 yum install php-devel
3、配置php.ini
vim /etc/php.d/scws.ini
[scws]
extens

SCWS是一个简易中文分词系统,采用C语言开发,支持PHP扩展。本文介绍了SCWS的安装、PHP扩展安装及词库配置,并提供了一个PHP实例展示如何使用SCWS进行中文分词。
最低0.47元/天 解锁文章
669

被折叠的 条评论
为什么被折叠?



