关于脏字典过滤问题-用正则表达式来过滤脏数据

转载 2007年09月26日 09:06:00
方法一:使用正则表达式

 1//脏字典数据存放文件路径
 2        private static string FILE_NAME="zang.txt";
 3        //脏数据字典表,如:脏数据一|脏数据二|脏数据三
 4        public static string dirtyStr="";
 5        
 6        public ValidDirty()
 7        {
 8            if (HttpRuntime.Cache["Regex"]==null)
 9            {
10                dirtyStr=ReadDic();
11                //用于检测脏字典的正则表达式
12                Regex validateReg= new Regex("^((?!"+dirtyStr+").(?<!"+dirtyStr+"))*$",RegexOptions.Compiled|RegexOptions.ExplicitCapture);    
13                HttpRuntime.Cache.Insert("Regex" ,validateReg,null,DateTime.Now.AddMinutes(20) ,TimeSpan.Zero);
14            }

15            
16        }

17        private string ReadDic()
18        {
19            FILE_NAME=Environment.CurrentDirectory+"//"+FILE_NAME;
20
21            if (!File.Exists(FILE_NAME)) 
22            {
23                Console.WriteLine("{0} does not exist.", FILE_NAME);
24                return "";
25            }

26            StreamReader sr = File.OpenText(FILE_NAME);
27            String input="";
28            while (sr.Peek() > -1
29            {
30                input += sr.ReadLine() ;
31            }

32            
33            sr.Close();
34            return input;
35
36        }

37
38        
39        public bool ValidByReg(string str)
40        {
41            Regex reg=(Regex)HttpRuntime.Cache["Regex"];
42            return reg.IsMatch(str) ;
43            
44        }


感觉这种方法的执行效率不是很高,简单的测试了一下 1000字的文章,脏字典有800多个关键字
式了一下是 1.238秒,大家有没有更好的方法,请不吝赐教!

方法二:普通循环查找方法

    public bool ValidGeneral(string str)
        
{
            
            
if(!File.Exists(FILE_NAME))
            
{
                Console.WriteLine(
"文件路径或者文件路径不存在错误信息") ;
                
return false;
            }

            
else
            
{
                StreamReader objReader 
= new StreamReader(FILE_NAME,System.Text.Encoding.GetEncoding("gb2312"));
                
string sLine="";
                ArrayList arrText 
= new ArrayList();

                
while (sLine != null)
                
{
                    sLine 
= objReader.ReadLine();
                    
if (sLine != null)
                        arrText.Add(sLine);
                    
                }

                objReader.Close();


                
foreach (string sOutput in arrText)
                
{
                    
string[] strArr=sOutput.Split('|');
                    
                    
for (int i = 0; i < strArr.Length; i++)
                    
{
                        
if (str.IndexOf(strArr[i])!=-1)
                        
{
                            
return false;    
                        }

                        
                    }

                    
                }

                
return true;

            }


        }


以下是测试的方法,有什么问题还大家请指出!

 1DateTime t1 =DateTime.Now;
 2            string str="213";
 3            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 4            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 5            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 6            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 7            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 8            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
 9            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
10            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
11            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
12            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";    
13            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
14            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
15            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
16            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
17            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
18            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
19            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
20            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
21            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
22            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
23            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
24            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
25            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
26            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
27            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
28            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
29            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
30            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
31            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
32            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
33            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
34            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
35            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
36            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
37            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
38            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
39            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
40            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
41            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
42            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
43            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
44            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
45            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
46            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
47            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
48            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
49            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
50            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
51            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
52            str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
53            ValidDirty vd=new ValidDirty() ;
54            Console.WriteLine(vd.ValidByReg(str))  ;
55            DateTime t2 =DateTime.Now;
56            TimeSpan ts=t2-t1;
57            Console.WriteLine(ts.TotalMilliseconds) ; 
58            Console.Read() ;

算法
检索文本文件长度 / 耗费时间(ms)
正则算法
10个汉字/ 980
100个汉字/999
1000个汉字/1234
普通算法
10个汉字/ 234
100个汉字/234
1000个汉字/265


脏字典下载 

java正则表达式 过滤特殊字符的正则表达式

// 过滤特殊字符 public staticString StringFilter(String str) throws PatternSyntaxException {  // 只允许字母和数字...
  • u014344668
  • u014344668
  • 2016年07月27日 14:34
  • 1261

Java中过滤出字母、数字和中文的正则表达式

1、Java中过滤出字母、数字和中文的正则表达式 (1)过滤出字母的正则表达式      [^(A-Za-z)] (2)过滤出数字的正则表达式   [^(0-9)] (3)过滤出中文的正则表达...
  • you23hai45
  • you23hai45
  • 2014年03月12日 21:23
  • 4151

Java中过滤出字母、数字和中文的正则表达式

Java中过滤出字母、数字和中文的正则表达式
  • ljj821061514
  • ljj821061514
  • 2016年06月07日 18:09
  • 2550

MySQL数据库——用通配符和正则表达式过滤数据(二)

上面说了通配符的用法(下划线 和 % ),但是我们要知道,通配符只能完成最基本的过滤,但是随着过滤条件的复杂性的增加,我们就需要用到正则表达式啦 。 正则表达式是用来匹配文本的特殊的串(字符集合)。更...
  • qq_36120793
  • qq_36120793
  • 2017年12月09日 01:03
  • 92

MYSQL必知必会读书笔记 第九章 使用正则表达式过滤数据

正则与LIKE的区别  Mysql的正则表达式仅仅使SQL语言的一个子集,可以匹配基本的字符、字符串。 例如:select * from wp_posts where post_name ...
  • chenpeng19910926
  • chenpeng19910926
  • 2016年05月04日 16:48
  • 697

MYSQL使用正则表达式过滤数据

MYSQL使用正则表达式过滤数据总结和实际应用实例
  • Gy__My
  • Gy__My
  • 2017年04月12日 23:49
  • 970

MySQL学习足迹记录07--数据过滤--用正则表达式进行检索

本文用到的检索数据     mysql> SELECT prod_name FROM products              -> ORDER BY prod_name; +-----------...
  • piniheaven
  • piniheaven
  • 2013年07月10日 13:03
  • 554

Mysql - 用正则表达式过滤数据 ( 1 )

数据过滤时,一般使用匹配,比较,通配符等就可完成。但是,随着数据过滤条件的复杂性增加,应该学会使用正则表达式来进行搜索筛选数据。正则表达式是用来匹配文本的字符集合。下面将从几个方面来介绍使用正则表达式...
  • Vincent_Xupt
  • Vincent_Xupt
  • 2017年12月08日 01:15
  • 133

MySQL检索数据(过滤+通配符+正则表达式)

【0】README 0.1)本文部分文字描述转自“MySQL 必知必会”,旨在review “MySQL的基础知识”; 【1】检索数据 1)检索单个列:select a_name fro...
  • PacosonSWJTU
  • PacosonSWJTU
  • 2016年05月16日 15:43
  • 2036

MySQL数据库——用通配符和正则表达式过滤数据(一)

前面我们介绍过关于如何过滤数据,但是那些都是对已经确定的值进行过滤的。在实际生活中,我们很可能需要类似这样的搜索,列出文本中包含关键字“Freeman”的语句。 显然,我们用之前的简单操作肯定是不行...
  • qq_36120793
  • qq_36120793
  • 2017年12月08日 23:20
  • 29
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:关于脏字典过滤问题-用正则表达式来过滤脏数据
举报原因:
原因补充:

(最多只允许输入30个字)