php scws实例

$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
//要进行分词的语句
$so->send_text("近期“跪求体”“哭晕体”“吓尿体”等浮夸自大文风频现,消解媒体公信力,污染舆论生态,扭曲国民心态,不利于成风化人、凝聚人心、构建清朗网络空间。");
//设置分词所用词典(此处使用utf8的词典)
$so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
//设置分词所用规则
$so->set_rule('/usr/local/scws/etc/rules.utf8.ini ');
//分词前去掉标点符号
$so->set_ignore(true);
//是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
$so->set_multi(true);
//设定将文字自动以二字分词法聚合
$so->set_duality(true);
//要进行分词的语句
$words = array();
//var_dump($so->get_result());
while ($tmp = $so->get_result())
{
    foreach ($tmp as $val) {
        if(!new_in_array($val, $words,'word')){
            $words[] = array(
                'word' => $val['word'],
                'weight' => $val['idf'],
            );
        }
    }
}

var_dump($words);
$so->close();
//递归分词
function new_in_array($need,$array,$column=''){
    $flag = false;
    foreach ($array as $val) {
        if($val[$column] == $need[$column]){
            $flag = true;
            break;
        }
    }
    return $flag;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值