centos 中文分词scws安装和使用

分词scws安装

下载源码
cd /usr/local/src
wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2
tar xvjf scws-1.2.3.tar.bz2
cd scws-1.2.3
./configure –prefix=/usr/local/scws
make && make install

检查是否安装成功
ls -al /usr/local/scws/lib/libscws.la**重点内容**
/usr/local/scws/bin/scws -h

下载通用词典
cd /usr/local/scws/etc
wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
tar xvjf scws-dict-chs-gbk.tar.bz2
tar xvjf scws-dict-chs-utf8.tar.bz2

在php中使用分词,需安装php扩展
PHP扩展需要autoconf、automake及phpize工具,如果没有的话需要新安装。
whereis autoconf
yum install autoconf
cd /usr/local/src/scws-1.2.3/phpext
phpize
./configure –with-scws=/usr/local/scws –with-php-config=/usr/bin/php-config
若 php 安装在特殊目录 $php_prefix, 则请在 configure 后加上 –with-php-config=$php_prefix/bin/php-config
make && make install

在 php.ini 中加入以下几行
[scws]
extension=scws.so
scws.default.charset=utf-8
scws.default.fpath=/usr/local/scws/etc

例子
(1)使用类方法分词

<?php
$so = scws_new();
$so->set_charset('utf-8');
scws_set_dict($sh, '/usr/local/scws/etc/dict.utf8.xdb');
scws_set_rule($sh, '/usr/local/scws/etc/rules.utf8.ini');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
while ($tmp = $so->get_result())
{
  print_r($tmp);
}
$so->close();
?>

(2)使用函数提取高频词

<?php
$sh = scws_open();
scws_set_charset($sh, 'utf-8');
scws_set_dict($sh, '/usr/local/scws/etc/dict.utf8.xdb');
scws_set_rule($sh, '/usr/local/scws/etc/rules.utf8.ini');
$text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";
scws_send_text($sh, $text);
$top = scws_get_tops($sh, 5);
print_r($top);
?>

scws官方地址

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值