爬虫搜索基础篇(三)

15 篇文章 0 订阅
14 篇文章 0 订阅


2.App内容

现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。

抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。

三.了解网络请求

如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。

其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:

 HTTP请求

抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。

请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

主键值 

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。

原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值