PHP分词

37 篇文章 0 订阅
8 篇文章 0 订阅

废话不多说,直接上代码

常用的也就两种:

SCWS 和 phpanalysis

先给一段字符串:

$str = '真怕有一天,我们jg1552再次成为交叉线,我想那时就再也不可23454能回归了,快乐永远!$%是拿痛苦做代价,你现在^&%多幸福,多快乐,你以后^^&就会越FG伤心越难过,不想发生!';

一、SCWS

1、下载这两

a、pscws4中的 pscws4.class.php和xdb_r.class.php文件放到根目录的/extend/org下

b、修改命名规则,使之符合tp5

c、加命名空间,方便引入与调用

2、开始测试

$result=$this->get_tags($str);

dump($result);

//scws分词函数
    public function get_tags($title){
        //新建实例对象
        $pscws=new Pscws('utf8');

        $path = \Env::get('root_path');

        $path = str_replace('\\','/',$path);

        //设置字典文件和规则集文件
        $pscws->set_dict($path . 'application/Common/Conf/etc/dict.utf8.xdb');
        $pscws->set_rule($path . 'application/Common/Conf/etc/rules.utf8.ini');

        //调用send_text()方法
        $pscws->send_text($title);

        $tags['words']= $pscws->get_result();
        $pscws->close();

        return $tags;

    }

结果图

二、phpanalysis

下载文件包

1、放到根目录extend中,修改命名并加命名空间

2、测试结果

        $pa = new PhpAnalysis();

        $pa::$loadInit = false;
        $pa->LoadDict();
        $pa->SetSource($str);
        $pa->StartAnalysis( false );
        $result = $pa->GetFinallyResult();

        $result = explode(' ',$result);
        dump($result);

结果图

 

 因此,可以看出,SCWS只能分割中文,遇到标点、字母、数字就会停止分割。但是分词速度很快

phpanalysis分词比较全面,会稍微慢点

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值