问题描述:由于需求 需要 评论功能,但是评论功能是用户写上去的,用户提交的东西是不能相信的,需要过滤,防止录入攻击代码等等;
这里只介绍 一个 极简的过滤敏感字符串的方法;
我在写这个过滤字符串方法之前 上网查过有没有开放的接口;找了找要么收费 要么没有开源的接口;所以还是自己写一个吧;
1 /** 2 * @desc 匹配敏感词汇 3 * @author weizenghui 4 * @version 3.0 5 * @param $content 6 * @return array; 7 */ 8 function filterText($content){ 9 $filterArr = array('习*平','李*强','尼玛','你妈','他妈','我曹','握草','窝草','我操','卧槽','傻逼','煞笔','麻痹','马蛋','鸡巴','我日','滚蛋','去他妈'); 10 $arr = ''; 11 foreach ($filterArr as $val){ 12 $count = mb_substr_count($content,$val); 13 if($count > 0){ 14 $arr[] = $val; 15 } 16 } 17 18 if(empty($arr)){ 19 $data = array('status' => false); 20 }else{ 21 $data = array('status' => true,'str' => implode(',', $arr)); 22 } 23 return $data; 24 }
这个方法也许并不好 效率很低,但是确实可以使用
下面介绍一个更加高效的思路,内容摘自互联网:
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。
安装步骤
下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。
安装libdatrie依赖库
$ tar zxvf libdatrie-0.2.4.tar.gz
$ cd libdatrie-0.2.4
$ make clean
$ ./configure --prefix=$LIB_PATH $ make $ make install
安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter)
$ $INSTALL_PHP_PATH/bin/phpize
$ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH $ make $ make install
然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。
PHP测试实例
<?php
ini_set('memory_limit', '512M'); $arrWord = file('dict.txt'); $resTrie = trie_filter_new(); foreach ($arrWord as $k => $v) { trie_filter_store($resTrie, $v); } trie_filter_save($resTrie, __DIR__ . '/blackword.tree'); $resTrie = trie_filter_load(__DIR__ . '/blackword.tree'); $str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?'; $arrRet = trie_filter_search_all($resTrie, $str); print_all($str, $arrRet); function print_all($str, $res) {//print_r($res); echo "$str\n"; foreach ($res as $k => $v) { echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."\n"; } }
测试效果,输出格式(顺序值=>该敏感词出现的位置-该敏感词的长度-敏感词)
执行效率,高高高,超级高,速度非常快。
注意事项
dict.txt 为敏感词库,一个词一行
优化建议
把文本词库生成tree的过程需要时间,该步骤可以异步实现,过滤过程只需要加载tree即刻。
PHP需要5.2以上版本
相关下载:
http://linux.thai.net/pub/thailinux/software/libthai/
https://github.com/wulijun/php-ext-trie-filter