![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
A-f
永不停歇
展开
-
通过Python利用ADSL服务器和tinyproxy构建数据自己的动态代理IP池,用django+redis做web服务,提供IP接口
应公司业务需求需要在一些地方使用代理,要求连通率高,速度快,最主要的还要便宜,对比多家供应商后,最后还是决定自购拨号服务搭建代理IP池。需要配置:1.一台或多台adsl服务器(用以提供IP,可网上购买,通过ssh同域名连接)2.一台正常固定IP服务器拥来搭建IP代理池。(统一配置:python3.5以上环境)具体配置:1.在ADSL服务器上部署tinyporxy服务, 可以直接yum安...原创 2018-09-04 23:41:15 · 2420 阅读 · 1 评论 -
通过Python利用ADSL服务器和tinyproxy构建数据自己的动态代理IP池,用django+redis做web服务 (优化版)
代理池初始版:https://blog.csdn.net/MeteorCountry/article/details/82085238上一篇文章中所搭建的代理池在使用过程中出现了点小问题,代理池中莫名的多出了一些无效代理,检查日志后发现是在更新代理池时旧的代理IP没有删除成功,就添加了新的代理IP。究其原因是因为在请求删除接口时网络已断开导致多次请求失败,跳过了删除这一步骤,进行了重拨、更新,...原创 2018-09-18 22:46:02 · 1239 阅读 · 1 评论 -
利用Python多线程限制 http 真实请求时间或限制函数最大执行时间的装饰器
这段时间在制作一个爬虫的时候发现了一个比较神奇的事情 python requests 包发起请求的时候设置 timeout 参数 竟然不起作用?what 你要弄啥幺蛾子嘞, 后来各种找原因终于在别人的提醒下又看了下 requests 的文档才发现原来 timeout 设置超时只是指发起到对方服务器接受到请求这段时间,原文:timeout 仅对连接过程有效,与响应体的下载无关。 timeo...原创 2018-09-18 23:48:29 · 1736 阅读 · 0 评论 -
JS加解密,python
之所以写这篇文章是因为之前在做一些爬虫项目的时候遇到在url或者header头中的加密参数,每次请求都需要变换,如果用chromdriver来解析的话耗费资源比较高,且耗时长,而刚接触 js 逆向的时候真的是头皮发麻,另外这里不谈哪个网站的加密参数,只说方法。 到现在为止遇到的参数加密类型主要分为两类:第一类: 在请求数据接口之前不需要发起其它请求,其中可能只需要你连接中的数个参数或者...原创 2018-12-11 00:26:19 · 505 阅读 · 6 评论 -
爬虫与反爬之艺龙反爬(code值的生成,上,参数篇)
最近发现该网站的code值生成方式是改了又改(一周一改?简直是爬虫劝退),难道是因为网络上的爬虫请求量增大了还是怎么回事!!本文只提供学术研究。肉文来了: 此处针对详情页来研究, 通过debug可已找生成code的js函数 abcdefg, 其参数dynamicScrip(dynamicScript ="KP1XdhhXPrLWzxAhwj............原创 2019-03-31 23:01:34 · 1062 阅读 · 1 评论 -
爬虫与反爬之艺龙反爬(code值的生成,下,算法篇)
开局一张图,其它全靠编。这里可以看到此abcdefg方法总共有四步构成,1:判断参数dynamicScrip是否为空,2使用hijklmn方法处理字符串dynamicScrip(hijklmn方法下面就有,可以使用拿来原则),3.eval 执行处理过的dynamicScrip字符串返回值为code,4.返回code值,到此结束。我们只需要处理第三步就行了,之所以需要处理是因为我们需要用...原创 2019-03-31 23:01:44 · 1509 阅读 · 5 评论 -
cookie中的utma,utmb,utmc,utmz
转载自:http://blog.sina.com.cn/s/blog_546abd9f0101b30g.htmlGoogle Analytics设置了5个不同的cookie,_utma, _utmb, _utmc, _utmz和 _utmz。分别用来存储不同的信息。所有的cookie统一使用_u-t-m开头,所以我们看到这三个字母就知道是google的cookie。下面逐个介绍Goo...转载 2019-04-11 21:03:14 · 1700 阅读 · 0 评论