爬虫软件 八爪鱼 使用经验

1,百度有爬虫限制,频繁查询需进行图片验证,可采集中进行验证后,再次采集;

2,百度搜索结果,在登录百度账号的状态下,有的查询结果比无账号的更加精准;

3,八爪鱼,提取数据如果不在循环中,则只有绝对路径

4,列表链接循环点击,属性配置新标签打开;如果循环正常,但数据为空或全部默认,则可能是循环过快,数据来不及加载,在提取数据前插入移动鼠标,等待1-2秒即可,注意指定一个xpath,否则后续的预览无法显示

5,自动登录:有的网站cookie有时间限制或只能用一次,再次采集时,打开任务取消cookie,保存后退出,重新打开任务,重新绑定cookie。

6,八爪鱼识别的翻页循环并不完全适用:有的翻页条中间带省略号的,翻到省略号页码,下一页的xpath会变化,需要手工修改,用属性节点固定,如下列示例:

.//div[span[text()='你选好的节点']]/div[2]

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值