网络爬虫
chinacang
这个作者很懒,什么都没留下…
展开
-
为爬虫设置User-Agent
java里面设置User-Agent代码如下 HttpURLConnection uc = (HttpURLConnection) baseURL.openConnection(); uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 3.0.04506...原创 2008-07-16 17:54:23 · 896 阅读 · 0 评论 -
labin编译错误解决办法
在编译larbin的时候会出现2个错误,解决办法如下: http://hi.baidu.com/hustwk/blog/item/b68d9bef232143eacf1b3eed.html 写道 adns文件夹下internal.h文件569-571:adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,vbu...原创 2008-07-17 10:11:06 · 217 阅读 · 0 评论 -
是使用淘宝API获取数据好,还是利用爬虫去抓取数据好呢
RT 目前抓了淘宝的200多万家 的店铺地址(URL)了,不知道算不算流氓爬虫。估计爬了他们 95%的店铺地址 ,仅供参考。 发现一个搞笑的店铺,整个店铺里都是卖避孕套之类的,分类到了数码相机类里面去了,哈哈 目前不知道taobao会不会把一个店铺分到多个类中,如何会分到多个类中的话,我这数值还要缩减,自己要来排重一下。...原创 2009-06-25 17:08:56 · 1446 阅读 · 1 评论