八爪鱼对接QA一览

公司有一段时间在做数据合规检测,需要用到八爪鱼工具爬取图文数据。下面是与八爪鱼工作人员沟通以及自己的理解,整理的一份QA文档,供大家参考。

1.怎么获取八爪鱼采集到的云数据?

答:八爪鱼工作人员配置好采集规则,触发采集并完成后,可以通过提供的Api获取云数据。另外,也可以通过八爪鱼工具本地导出数据。

 

2.触发规则爬取数据并入云数据库成功后有没有状态通知?我们什么时机去要云数据比较合适呢?

答:增值Api提供的任务的状态查询,可根据状态,进行相应逻辑处理。

advancedapi.bazhuayu.com/help#_actio…

 

3.例如微博的全量数据爬取、增量数据爬取,怎么操作?

答:如果需要全量数据爬取,可以通过“设置循环翻页的次数”(自己把握循环数值),来得到获取全部微博数据,需设置cookie。

如果需要增量采集,可以把这个循环次数设置小一点,这样子只采集最新的页数数据;或者,也可以通过设置触发器,通过时间条件,只采集最近时间发布的信息。

 

4.公众号爬取数据需要注意什么?

答:爬取公众号增量数据,有免费模板规则,不可导出、导入。在搜狗微信公众号配置。

爬取公众号全量数据,要定义规则,账号密码登录后台,需设置页面cookie。

5.微博爬取数据,如果不用cookie登录,最多能爬取多少数据?

答:不用cookie登录,最多只能爬取微博第一页的数据。这个场景适合增量爬取,如果是需要全量爬取,就必须要cookie登录了。

 

6.公众爬取的内容类型有哪些?

答:目前看到八爪鱼爬取公众号的内容类型,暂时是图文类型,对于发布文本消息、图片消息、音乐视频消息忽略;另外,对于删除的图文信息,也会忽略。

忽略的记录,只会爬取到标题,没有内容和时间。

 

 

7.八爪鱼重复记录的判定方法是?

答:判定所有字段都相同,才认为是重复。

 

8.怎么获取最近爬取的20条增量数据?

答:通过获取任务数据api,入参offset和size的值设置。

例如:

第一次请求得到的数据基础:

入参:offset=0,size=1

出参:

"offset": 4727,

"restTotal": 3099,

"total": 3100

第二次,再获取最近爬取的20条数据:

offset = offset + restTotal - 20

size = 20

备注:offset为数据相对开始的消费请求数据后的偏移量,restTotal为数据相对最后的偏移量。(原理就是,得到最后的offset偏移量,减去最近的数量即可。offset + restTotal=总偏移量,4727+3099=7826)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值