自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

网络数据采集

专注于网络数据采集工具的研究与开发。

  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

转载 文章转载---教会你怎么样防止网站内容被采集

最近因为某网站对ip访问次数限制的问题,导致自己做出来的程序没能完成预期目标。这是找到的点资料,总结的不错。虽说是告诉你怎么防采集,却也指明了如何破解的方法。目前看来只能通过降低采集效率的方式来完成任务了。-----------------------------------------------------------------------------以下为拷贝-----------

2012-08-07 23:16:35 2461

原创 网友提问---一个稍微用点技巧的内容采集方法

网友的提问地址:http://bbs.locoy.com/spider-75585-1-1.html网友问题概述:该网友要采集内容的源代码如下:第1张.......<a href='4586_9.html' ...........第9张第10张看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在这个例子中是这个数字“10”。

2012-05-18 23:28:59 399

原创 网友问题回答---新浪博客怎么采集

这个采集的目标网址暂定为新浪旅游:http://travel.sina.com.cn/109/blog/chn/list.html点击这个博客列表下面的分页,可以发现浏览器上地址栏内的url地址未发生任何变化。由此可以判定,网页中博客列表的显示可能用ajax等技术实现的动态显示,采集会有难度。不过,还是先看看网页源码再说。如图:可以发现所有500条博客网址的地址是在JS代码中保

2012-05-17 23:47:06 1289

原创 网友问题回答_百度知道的搜索结果采集

火车头论坛5-14日一个问题的解答:http://bbs.locoy.com/spider-75505-1-1.htmlQ:http://zhidao.baidu.com/q?word=%CB%BC%D4%B4%D1%A7%D4%BA&lm=0&fr=search&ct=17&pn=0&tn=ikaslist&rn=10 此网址采集规则如何写?A:1、该百度知道的网址规则很容易分析,网

2012-05-15 19:53:48 998

百度知道.ljobx

此为火车头数据采集器中,百度知道的一个采集规则实例。

2012-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除