网页信息抓取

本文介绍了网页信息抓取的三种方法,包括System.Net.WebClient下载、HttpWebRequest和HttpWebResponse,以及WebBrowser控件的使用。重点讲述了通过正则表达式定位网页数据的步骤,并解答了关于匹配结果和正则匹配选项的常见问题。建议长期从事数据采集工作的人深入学习正则表达式,并推荐使用XML格式保存抓取的数据。
摘要由CSDN通过智能技术生成
——看到社区里面好多人都有抓取网页信息的需要,特地把我自己做的DEMO放上来,供大家参考,也希望大家多提意见,共同学习完善这个小程序.
 
准备工具:Dreamweaver,RegexBuddy

抓取分3步进行:
1)下载网页数据;
2)处理网页得到想要的数据;
3)保存数据

一、下载网页源代码
这个步骤有很多种方法可以实现,但是目的只有一个,那就是: 给定网页Url,获得网页源代码.


1.使用WebClient下载:

//...
//这里是WebClient需要使用的命名空间
using System.Net;					
//...
WebClient wbDown = new WebClient();		
string strResult = wbDown.DownloadString("http://www.baidu.com/");
//OK,strResult就是下载到的网页源代码
//...


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值