$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
//要进行分词的语句
$so->send_text("近期“跪求体”“哭晕体”“吓尿体”等浮夸自大文风频现,消解媒体公信力,污染舆论生态,扭曲国民心态,不利于成风化人、凝聚人心、构建清朗网络空间。");
//设置分词所用词典(此处使用utf8的词典)
$so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
//设置分词所用规则
$so->set_rule('/usr/local/scws/etc/rules.utf8.ini ');
//分词前去掉标点符号
$so->set_ignore(true);
//是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
$so->set_multi(true);
//设定将文字自动以二字分词法聚合
$so->set_duality(true);
//要进行分词的语句
$words = array();
//var_dump($so->get_result());
while ($tmp = $so->get_result())
{
foreach ($tmp as $val) {
if(!new_in_array($val, $words,'word')){
$words[] = array(
'word' => $val['word'],
'weight' => $val['idf'],
);
}
}
}
var_dump($words);
$so->close();
//递归分词
function new_in_array($need,$array,$column=''){
$flag = false;
foreach ($array as $val) {
if($val[$column] == $need[$column]){
$flag = true;
break;
}
}
return $flag;
}
php scws实例
最新推荐文章于 2022-01-25 16:44:18 发布