![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 73
麦麦麦造
这个作者很懒,什么都没留下…
展开
-
提高爬虫开发效率的几个小工具
前言一般开发爬虫的时候,最心烦的不是它的反爬有多复杂,而是它的参数贼多,要一个个的复制进去。所以自己写了一个小工具,把抓包抓到的 header、data、cookie 这些参数转换成 python 代码。大大的提高开发效率,其实代码之前已经开源了,不过用起来不太方便,于是最近就把它弄到了线上,用起来方便多了。涉及到的工具或技术Python 3.7Fiddler v5.0Charle...原创 2020-04-27 19:23:16 · 320 阅读 · 0 评论 -
scrapy使用随机User-Agent
scrapy使用随机User-Agent众所周知,User-Agent值是用来帮助服务器识别用户使用的操作系统、浏览器、浏览器版本等等信息的,因此也常被用来检测爬虫。许多网站会ban掉来自爬虫的请求,来达到反爬的目的。正常浏览器的User-Agent值为:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 F...原创 2018-09-18 01:57:43 · 492 阅读 · 0 评论 -
python爬虫中一个str类型的unicode字符串转成中文的问题
本文主要介绍部分爬虫在遇到%u5317%u4eac%u70e4%u9e2d这种类似unicode编码的str类型数据时,无法直接使用decode('unicode-escape')方法来转成中文的时候,一个转码的解决方案,以及这个方案的思路!今天在爬一个网站的时候,遇到了一个网站,它的一些数据是通过ajax加载进来的一段json,它的value部分的内容是像下面这样子的:%20%20%20...原创 2018-09-29 11:36:58 · 4075 阅读 · 3 评论 -
三个小工具,大幅提高爬虫开发速度
引言我们在进行爬虫开发的时候,fildder是一个必不可少的神器。尤其是现在大型网站的反爬越来越难处理,经常会花费我们大量的时间来找到哪些参数是必须的。因此如果能够快速的将fildder抓到的包里面的参数转换成python可用的格式,那么无疑可以极大的提高我们的开发效率。因此我写了小工具,主要目的是为了快速的将fildder里抓到的header,data,cookie转换成requests,s...原创 2019-01-07 22:33:08 · 280 阅读 · 0 评论