cxlhuihui的博客

技术小白的日常

C#是如何做爬虫的

            //创建URL,并创建请求
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
            //携带cookie
            request.CookieContainer = CookieContainer;
            //发送请求,并获取HTML
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            //读取流
            StreamReader streamreader = new StreamReader(stream, Encoding.GetEncoding("gb2312"));
            string html = streamreader.ReadToEnd();
            streamreader.Close();
            response.Close();

            if (string.IsNullOrEmpty(html)) return;

            接下来就可以做各种信息的提取了,正则表达式.......该不骤是针对静态网页的

            //匹配分组数据          

            string regex = "div class=\"mls\">.*href=\"(?<url>[^\"]*)\">(?<title>[^<]*介绍)</a>";

            MatchCollection mces = RegexUtil.GetGroupByRegex(html, regex);
            if (mces == null || mces.Count <= 0) return;
            //抓取网页的所有数据
            foreach (Match m in mces)
            {
阅读更多
个人分类: c#
想对作者说点什么? 我来说一句

ZhiHu-master.zip

2017年09月07日 697KB 下载

~爬虫蜘蛛(C#版)~

2008年11月13日 37KB 下载

C# 爬虫(初步)邮件自采集器

2011年04月10日 43KB 下载

C#简单的爬虫例子

2018年04月10日 18.82MB 下载

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭