爬虫
爬虫相关知识点、异常处理
Tramp_fish
这个作者很懒,什么都没留下…
展开
-
appium控制手机APP流程
1.启动adb服务adb start-server2.查看是否连接上手机或者虚拟机adb devices3.点击需控制的手机APPadb shell"dumpsys window | grep mCurrentFocus"tips:常见查看包的命令4.appium服务基本参数填写5.python连接appiumfrom appium import webdrivercap ={ "platformName": "Android", "p..原创 2020-07-30 15:50:40 · 757 阅读 · 0 评论 -
手机抓包工具证书安装
fiddler教程网站:https://www.cnblogs.com/mini-monkey/p/11286264.html证书安装URL:ip+端口号mitmdump教程网站:https://www.jianshu.com/p/af381ef134e2证书安装URL :mitm.itcharles教程网站:https://www.jianshu.com/p/171046d9f4f9证书安装URL:http://chls.pro/ssl...原创 2020-07-29 11:19:20 · 947 阅读 · 0 评论 -
爬虫中实现翻页(队列实现)
在爬取列表页时,通常我们需要翻页,最简单的翻页实现是递归调用,伪代码如下def crawl_list(url): next_url = crawl(url) #process html data ,extract next url if next_url is not None: crawl_list(next_url)此种方式存在的问题是: 1.递归次数过多,会抛出RuntimeError: maximum recursion depth excee...原创 2020-05-15 16:14:41 · 622 阅读 · 0 评论 -
requests-headers中x-requested-with-异步请求判定
1.知识点x-requested-with 请求头 区分ajax请求还是普通请求在服务器端判断request来自Ajax请求(异步)还是传统请求(同步)2.异常网站 aHR0cHM6Ly93d3cuZGVncnV5dGVyLmNvbS92aWV3L2pvdXJuYWxzL3Rqai90amotb3ZlcnZpZXcueG1sP3RhYl9ib2R5PXRvYy02ODg3MQ==3.现象 在抓取期刊列表页数据时,发现其数据为ajax请求,在发送post的请求中,未在headers中.原创 2020-05-09 15:53:53 · 906 阅读 · 0 评论 -
requests中禁止重定向-PDF全文下载
1.知识点在requests发送请求时添加allow_redirects=False2.异常网站aHR0cHM6Ly9hc21lZGlnaXRhbGNvbGxlY3Rpb24uYXNtZS5vcmcvdHJpYm9sb2d5L2FydGljbGUvZG9pLzEwLjExMTUvMS40MDQ2NTcxLzEwNzU2ODMvSW52ZXN0aWdhdGlvbi1vbi1GcmljdGlvbi1BbnRpLXdlYXItYW5kLUV4dHJlbWU=3.现象与处理在通过详细页获取pdf原创 2020-05-09 15:48:46 · 260 阅读 · 0 评论