C#笔记
iteye_3001
这个作者很懒,什么都没留下…
展开
-
HttpWebRequest采集(一)
现在采集程序最最常用到的就是火车头了,只要你会编写采集规则就能将网站上的数据抓下来居为已有。 不过做为一个开发者,这样做起来也也感觉不爽。不能一次性解决需求。 现在写一个简单的采集程序。 由于WEB的开发语言很多,不同的语言做出的网站在采集规则的写法上也有不同。 比如一般的分页就不会存在大的问题,多数还是以GET为主,...2010-09-16 15:19:01 · 206 阅读 · 0 评论 -
HttpWebRequest采集(二)-- C#解析html
上次说到了用HttpWebRequest来采集网站信息 然而对于采集下来的html源码怎么来解析呢,这个问题网上很多人都说采用正则来实现,这个的要求是高的,也会很烦锁。 相对于一个简单的页面来说这个方法还行,如果要采集的数据很多的话就要写N多个正则,N*M次的判断来取得自己想要的数据,这个工作量是很大的,并且对采集的功能上也会有影响。 有人会问有没有方法可以像解析xml那样来解析...2010-09-28 09:28:58 · 148 阅读 · 0 评论 -
HttpWebRequest采集(三)多任务+多线程 web采集
一般情况下在采集时,单个线程的工作速度是相当的慢的。对于大量数据的采集中采集多任务+多线程的方式显得尤其重要。 这里晒下我的一个多任务+多线程的代码类图。 因最近比较忙,代码也刚写一部分,还需完善,就先不发源码出来。 对于有些加了IP限制的网站,我们只有使用代理来对付,所以要先准备N多个快速的HTTP代理了 代理中国上每天都有更新,不过要想找到很快的代理还真不容易。 ...2010-10-17 11:47:39 · 225 阅读 · 0 评论