关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现;废话不多数,直接开始,由于百度很多博文都写了怎么安装以及安装某依赖包时出现问题的解决办法,但您也可以尝试一些是否能够正确并成功安装,以下安装过程是本人亲自试验过没有问题
在项目中需要对用户传递过来的文字进行过滤敏感词,用到这个,由于评论审核关键词考虑到词组过多,如果通过PHP循环处理可能会导致时间过长,影响用户体验,所以作者就趁此研究了一下trie_filter扩展;
后台评论审核关键词设置项:
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现;
废话不多数,直接开始,由于百度很多博文都写了怎么安装以及安装某依赖包时出现问题的解决办法,但您也可以尝试一些是否能够正确并成功安装,以下安装过程是本人亲自试验过没有问题;
第一步:依赖 libiconvwget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz
tar -zxf libiconv-1.14.tar.gz
cd libiconv-1.14
./configure
make && make install
第二步:安装 libdatrie
安装 libdatrie , 需要 libdatrie-0.2.4 或更新的版本(官网 https://linux.thai.net/~thep/datrie/datrie.html#Download,似乎0.2.5以上的版本无法下载,不知是否是我这里网络问题)
这里我安装的0.2.4版本wget ftp://linux.thai.net/pub/ThaiLinux/software/libthai/libdatrie-0.2.4.tar.gz
tar -zxf libdatrie-0.2.4.tar.gz
cd libdatrie-0.2.4
./configure --prefix=/usr/local/libdatrie/
make ICONV_LIBS='/usr/local/lib/libiconv.so'
make install
我这里没有出现下面这个错误,如你按照第二步安装仍出现这个错误,那请您继续百度寻找办法解决吧编译出现错误 trietool.c:125: undefined reference to `libiconv'
解决办法为:./configure LDFLAGS=-L/usr/local/lib LIBS=-liconv
第三步:安装trie_filter扩展wget https://github.com/wulijun/php-ext-trie-filter/archive/master.zip
unzip master.zip
cd php-ext-trie-filter-master/
phpize
./configure --with-php-config=/usr/local/php/bin/php-config --with-trie_filter=/usr/local/libdatrie/
make && make install
值得注意的是 --with-php-config 后面的路径是您服务器上php安装的路径,可以通过 whereis php-config 查找目录所在
通过运行php --ini查找php.ini文件位置,然后在文件中添加extension=trie_filter.so
保存配置并重启php
安装完后,在 phpinfo 里可以看到 trie_filter 扩展(如图)
这样就安装成功了。
使用示例:/**
* 关键字检测
* $arrWord 是您的关键词内容 数组格式
* @param $strContent
* @return bool
*/
public function checkWordKeys($strContent)
{
//如果未开启trie_filter 扩展则返回false
if (!in_array('trie_filter', get_loaded_extensions())) {
return false;
}
if (Cache::get('arrWordKeys')) {
$arrWord = json_decode(Cache::get('arrWordKeys'));
} else {
//trie_filter_new
$arrWord = explode(PHP_EOL, $this->config['comment_key_words']);
Cache::set('arrWordKeys', json_encode($arrWord));
}
$resTrie = trie_filter_new(); //create an empty trie tree
foreach ($arrWord as $k => $v) {
trie_filter_store($resTrie, $v);
}
// 生成关键词词典.
trie_filter_save($resTrie, __DIR__ . '/blackword.tree');
// 加载关键词词典,成功返回一个Trie_Filter 资源句柄,失败返回NULL
$resTrie = trie_filter_load(__DIR__ . '/blackword.tree');
// 查找关键词
$arrRet = trie_filter_search($resTrie, $strContent);//每次只检测一个敏感词
// 获得查找结果树
trie_filter_free($resTrie);
if (is_array($arrRet) && isset($arrRet[0]) && isset($arrRet[1])) {
return true;
} else {
return false;
}
}
这里我所采用的环境是PHP5.6,在PHP7上未测试,不知道是否可用