抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

个人总结

1原有抓取网页的一般逻辑

去访问一个URL地址,获得对应的网页的过程,其对应的内部机制是

准备好对应的Http请求(Http Request)+ 提交对应的Http Request

获得返回的响应(Http Response) + 获得Http Response中的网页源码

2原来分析页面都用正则表达式,不专业啊,

啥专业

Winista.Text.HtmlParser

今天最大的收获,真实方便


资料汇总

http://blog.csdn.net/ycs0501/article/details/6930035

http://blog.csdn.net/ituff/article/details/8649527

使用htmlparser采集南京价格信息网,上面

http://www.cnblogs.com/shenba/archive/2009/04/12/1434050.html

http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

http://www.crifan.com/emulate_login_website_using_csharp/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值