个人总结
1原有抓取网页的一般逻辑
去访问一个URL地址,获得对应的网页的过程,其对应的内部机制是
准备好对应的Http请求(Http Request)+ 提交对应的Http Request
获得返回的响应(Http Response) + 获得Http Response中的网页源码
2原来分析页面都用正则表达式,不专业啊,
啥专业
今天最大的收获,真实方便
资料汇总
http://blog.csdn.net/ycs0501/article/details/6930035
http://blog.csdn.net/ituff/article/details/8649527
使用htmlparser采集南京价格信息网,上面
http://www.cnblogs.com/shenba/archive/2009/04/12/1434050.html
http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/
http://www.crifan.com/emulate_login_website_using_csharp/