c# 连续抓取页面内容

实现功能:去一个url抓取页面,在页面的内容里面在去找另一个url。找到这个这url之后经过一系列操作后再去重组的url去抓取内容。

第一、写出c#抓取页面的代码

c#抓取页面
  1 using System;
  2 using System.Collections.Generic;
  3 using System.Linq;
  4 using System.Web;
  5 using System.IO;
  6 using System.Net;
  7 using System.Text;
  8 
  9 /// <summary>
 10 ///abc 的摘要说明
 11 /// </summary>
 12 public static class abc
 13 {
 14     /// <summary>
 15     /// webRequest 模拟http get请求
 16     /// </summary>
 17     /// <param name="strUrl">请求的url</param>
 18     /// <param name="encoding">编码</param>
 19     /// <returns>返回字符串</returns>
 20     public static string GetHttpResponse(this string strUrl, Encoding encoding)
 21     {
 22         string strResult = string.Empty;
 23         try
 24         {
 25             HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(strUrl);
 26             HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse();
 27             Stream myStream = HttpWResp.GetResponseStream();
 28             StreamReader sr = new StreamReader(myStream, encoding);
 29             strResult = sr.ReadToEnd();
 30 
 31         }
 32         catch (Exception ex)
 33         {
 34             WriteLog(ex.Message, strUrl);
 35         }
 36 
 37         return strResult;
 38     }
 39 
 40     /// <summary>
 41     /// webRequest 模拟http post请求
 42     /// </summary>
 43     /// <param name="url">请求的url</param>
 44     /// <param name="val">post 的数据</param>
 45     /// <returns>返回字符串</returns>
 46     public static string GetHttpPostResponse(this string url, string val, Encoding encoding)
 47     {
 48         string strResult = string.Empty;
 49         try
 50         {
 51             HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(url);
 52             myReq.Method = "Post";
 53             myReq.ContentType = "application/x-www-form-urlencoded";
 54             byte[] byteArray = encoding.GetBytes(val);
 55             myReq.ContentLength = byteArray.Length;
 56             Stream stream = myReq.GetRequestStream();
 57             stream.Write(byteArray, 0, byteArray.Length);
 58             stream.Close();
 59             HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse();
 60             Stream myStream = HttpWResp.GetResponseStream();
 61             StreamReader sr = new StreamReader(myStream, encoding);
 62             strResult = sr.ReadToEnd();
 63 
 64         }
 65         catch (Exception ex)
 66         {
 67             WriteLog(ex.Message + val, url);
 68         }
 69 
 70         return strResult;
 71     }
 72 
 73     public static void WriteLog(string sLog, string titleLog)
 74     {
 75         try
 76         {
 77             string logPath = System.AppDomain.CurrentDomain.BaseDirectory;//目录位置
 78 
 79             DateTime dt = DateTime.Now;
 80             string logfile = new StringBuilder(logPath).Append("\\Log\\").Append(dt.ToString("yyyy-MM-dd")).Append("\\").Append(titleLog).Append("_").Append(dt.ToString("yyyyMMddHHmmss")).Append(".txt").ToString();
 81             if (!System.IO.Directory.Exists(System.IO.Path.GetDirectoryName(logfile)))
 82             {
 83                 System.IO.Directory.CreateDirectory(System.IO.Path.GetDirectoryName(logfile));
 84             }
 85             if (!File.Exists(logfile))
 86             {
 87                 FileStream fs = System.IO.File.Create(logfile);
 88                 fs.Close();
 89             }
 90             using (StreamWriter sw = new StreamWriter(logfile, true))
 91             {
 92                 sw.WriteLine(DateTime.Now.ToString("yyyy-MM-dd HH:mm:ss") + ":");
 93                 sw.WriteLine(sLog);
 94                 sw.WriteLine();
 95                 sw.Close();
 96             }
 97         }
 98         catch
 99         {
100 
101         }
102     }
103 }


第二、调用里面的方法GetHttpResponse去抓取页面(注这是get方式,如果是post方式可以选择post方式)

第三、用正则匹配方式得到想要的URL(Match mc = Regex.Match(aa, "action=(.*)>", RegexOptions.IgnoreCase);)

第四、由于此时得到URL是经过浏览器处理的URL如果我们直接去抓取页面就会找不到页面。因为此时的URL的协议是Https协议。所以我们需要中间做一次跳转。

首先还是去抓aa = abc.GetHttpResponse(str, Encoding.UTF8);得到的URL里有一个将要跳转到的url目录。我们需要将主域名+刚刚得到的这个目录。

第五、然后再去抓取。就可以得到我们想要的内容!

转载于:https://www.cnblogs.com/honghong75042/archive/2013/04/28/3049201.html

描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常庞大的,如下代码理论上大概可以把整个互联网网页链接都抓下来。 但事实上,由于处理器功能和网络条件(主要是网速)限制,一般的家用电脑最多能胜任12个线程左右的抓取任务,抓取速度有限。可以抓取,但需要时间和耐心。 当然,这个程序把所有链接抓下来是可能的,因为链接占系统空间并不多,而且有记录文件的帮助,已抓取网页的数量可以堆积下去, 甚至可以把所有的互联网网络链接都存取下来,当然,最好是分批次。建议设置maxNum为500-1000左右,慢慢累积下去。 另外因为是控制台程序,有时候显示字符过多会系统会暂停显示,这时候只要点击控制台按下回车键就可以了。程序假死的时候,可以按回车键(Enter)试试。 /// 使用本程序,请确保已创建相应的记录文件,出于简化代码的考虑,本程序做的并不健壮,请见谅。 /// 默认的文件创建在E盘根目录“已抓取网址.txt”和“待抓取网址.txt”这两个文本文件中,使用者需要自行创建这两个文件,注意后缀名不要搞错。 这两个文件里面的链接基本都是有效链接,可以单独处理使用。 本爬虫程序的速度如下: 10线程最快大概500个链接每分钟 6-8线程最快大概400-500个链接每分钟 2-4线程最快大概200-400个链接每分钟 单线程最快大概70-100个链接每分钟 之所以用多线程异步抓取完全是出于效率考虑,本程序多线程同步并不能带来速度的提升,只要抓取的网页不要太多重复和冗余就可以,异步并不意味着错误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值