从网页小偷程序到强大的搜索引擎--青蛙非王子(lostfrog)转

 

基本原理:

其实小偷程序的基本原理主要是通过一个URL网页地址,然后分析出对应URL地址的网页的html代码!

之后就对它进行分析!提取里面有用的东西!因为网页本身也有连接,所以可以捕获里面的URL连接,在对每一个连接进行分析,如此进行一个死循环,通过正则表达式提取自己想要的东西!

时间到**************************有时间继续*****************

 

如何从一个URL得到或者说下载对应的html代码

using System.Net;

using System.IO;
using System.Text;

    public string  getHtml()
    {
        string url = txtUrl.Text.Trim();    //获取输入的网页地址   txtUrl.Text为文本筐的内容


        WebClient wb = new WebClient();  //创建一个WebClient实例

        //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。(可有可无)
        //wb.Credentials=CredentialCache.DefaultCredentials;

        //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
        byte[] pagedata = wb.DownloadData(@url);

        //转换字符、
        string result = Encoding.Default.GetString(pagedata);


        txtBody.Text = result;  //txtBody要获取的html代码
        return result;
    }

 

还有另外的一种方法得到html代码

public string LoadHtmlCode(string strHtml)
    {
        //WebClient myWebClient = new WebClient();

        //byte[] myDataBuffer = myWebClient.DownloadData(remoteUri);

        //download = Encoding.Default.GetString(myDataBuffer);

        string[] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"        
         };

        string[] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

        string newReg = aryReg[0];
        string strOutput = strHtml;
        for (int i = 0; i < aryReg.Length; i++)
        {
            Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
            strOutput = regex.Replace(strOutput, aryRep[i]);

        }

        strOutput.Replace("<", "");
        strOutput.Replace(">", "");
        strOutput.Replace("/r/n", "");

        return strOutput;


    }

 

下面要做的就是如何从html代码里匹配出URL

//程序是一个设计到数据库的操作,下面数据库相关的操作都已经屏蔽掉方便大家阅读

public void SearchURL(string Url)
    {
       
        string url = Url.ToString().Trim();
      
       //如果你要开发邮件地址搜集器,strRegex = " [/w-]+@([/w-]+/.)+[/w-]+ " 即可
       System.Net.WebClient client=new WebClient();
       byte[] page = client.DownloadData(url);
       string content=System.Text.Encoding.UTF8.GetString(page);
       string regex=@"http://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)?";  
   //    string regex = "href=[///"///'](http://|//.///|///)?//w+(//.//w+)*(/w+(//.//w+)?)*(///|//?//w*=//w*(&//w*=//w*)*)?[///"///']";
       Regex re=new Regex(regex);
     
       MatchCollection matches=re.Matches(content);
      
       System.Collections.IEnumerator enu=matches.GetEnumerator();

       while(enu.MoveNext() && enu.Current!=null)
       {
        Match match=(Match)(enu.Current);
        //Console.Write(match.Value+"/r/n");
       // Response.Write(match.Value + "/r/n");
       
        //dglURL.Items.Add(match.Value.ToString());
          // list.Add(match.Value.ToString());
           jinhua.Bll.SearchURL.insertUrl(match.Value.ToString());

       }
       //dglURL.DataSource = list;
       //dglURL.DataBind();
 
    }

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值