scws中文分词组件

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。

2. 将下载后的 php_scws.dll 放到 php 安装目录的
extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。

3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2

4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
在 php.ini 的末尾加入以下几行:

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。

Java代码 收藏代码
  1. <?php
  2. //使用类方法分词 
  3. $so=scws_new();
  4.   
  5. $so->set_charset('gbk');
  6. //这里没有调用set_dict和set_rule系统会自动试调用ini中指定路径下的词典和规则文件
  7. $so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
  8. while($tmp=$so->get_result()){
  9. print_r($tmp);
  10. }
  11. $so->close();
  12. //使用函数提取高频词
  13. $sh=scws_open();
  14.  
  15. scws_set_charset($sh,'gbk');
  16. scws_set_dict($sh,'/path/to/dict.xdb');
  17. scws_set_rule($sh,'/path/to/rules.ini');
  18. $text="我是一个中国人,我会C++语言,我也有很多T恤衣服";
  19. scws_send_text($sh,$text);
  20. $top=scws_get_tops($sh,5);
  21. print_r($top);
  22. ?>

更多参考hightman论坛

Java代码 收藏代码
  1. <?php
  2. require("splitword.php");//包含分词类文件
  3. $SpWord=newSplitWord();//创建类对象
  4. $str="某某字符串";
  5. $words=$SpWord->SplitRMM($str);//调用类方法
  6. $SpWord=iconv("gbk","utf-8//ignore",$SpWord);
  7. $SplitWord->Clear();
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值