爬虫Web
Mainly Web
郑德帅
滴滴
展开
-
Python反爬JS逆向解析(八)---某公共服务平台cookie反爬
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_36853469/article/details/1050983851.某公共资源交易平台网站网站链接:https://ggzyfw.fujian.gov.c...原创 2020-03-25 17:38:01 · 11213 阅读 · 2 评论 -
解决requests.get/post报错Failed to establish a new connection: [WinError 10060]
requests报错1 完整报错代码2 报错分析3 解决办法1 完整报错代码url,url,"HTTPConnectionPool(host='47.121.2.122', port=8718): Max retries exceeded with url: /project/tender/sync (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000016C5C5EB9E8>:原创 2020-06-18 16:01:39 · 15033 阅读 · 0 评论 -
scrapy-selenium-谷歌浏览器爬取带有时效性cookies的网站
1.要爬取的网站: 黑龙江政府采购网这网站谁爬谁知道,时效性cookies,隔段时间爬取就得重新手动输入,用脚本返回的cookies还没用。至少对我这种小渣渣来说用纯框架爬取不来,请教了前后端同事也没解决.无奈,只得使用自动化测试工具selenium2.分析网站: 第一次请求不管从哪进去,都会回到这...原创 2019-08-21 17:31:08 · 7767 阅读 · 0 评论 -
OpenCV for Python通道分离快速找出滑块验证码中缺口坐标
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。转载请注明:转自https://leejason.blog.csdn.net/article/details/106211451OpenCV快速找出滑块验证码缺口坐标1.验证码及缺口图示例1.1 验证码(带缺口)1.2 缺口滑块2.灰度化(这里没用、习惯性处理看看效果)2.1 验证码(带缺口)2.2 缺口滑块3.通道分离及其效果4.找出缺口位置5.效果1.验证码及缺口图示例1.1 验证码(带缺口)1.2 缺口滑块没有空行,是滑块自带空白.原创 2020-05-31 02:19:18 · 2229 阅读 · 10 评论 -
解决execjs._exceptions.RuntimeUnavailableError: Could not find an available Java报错问题
1.报错代码如下:execjs._exceptions.RuntimeUnavailableError: Could not find an available Java2.问题定位没有运行JavaScript的相应环境,那么就需要来安装nodejs3.解决步骤3.1 下载nodewget https://nodejs.org/dist/v10.15.3/node-v10.15.3-linux-x64.tar.xz3.2 解压并移动到指定文件夹tar -xvf node-v10.15.3原创 2020-05-28 11:49:51 · 5924 阅读 · 0 评论 -
爬虫框架Scrapy使用IP代理,DOWNLOAD_TIMEOUT不起作用的解决方法
这里写目录标题一级目录二级目录三级目录![在这里插入图片描述](https://img-blog.csdnimg.cn/20200527140410296.png)一级目录二级目录三级目录原创 2020-05-27 16:00:38 · 3590 阅读 · 5 评论 -
Python 解决execjs._exceptions.ProgramError: ReferenceError: document is not defined报错问题
今天用execjs调用JS时,发现报错execjs._exceptions.ProgramError: ReferenceError: document is not defined如图:错误类型:文档对象未定义,解决方法,定义对象即可,习惯性定义变量吗?var document ;?emmmmmmmmmmmmmmm....不行的,继续报错execjs._excepti...原创 2020-03-24 17:35:04 · 40340 阅读 · 8 评论 -
Python反爬JS逆向解析(七)-----某不知名网站js加密cookie反爬
采集前建议:找好代理IP,别对该网站发起攻击性访问,否则爬虫用的好,监狱进的早1.网站:点此直达该不知名网站 2.正常请求网站:拿到网址,查看完基本的信息后,应该就是用代码对网站发起请求了。# -*- coding: UTF-8 ...原创 2020-03-24 17:35:51 · 12674 阅读 · 6 评论 -
Python反反爬系列(六)---小白学逆向(二)---中国移动某网站简单反爬
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。这个反爬的解决很简单,不打断点也可以找到,就是可能会多花点时间1.网站如下,自搜 2.提交参数,其他都是固定死或者有规律的,_qt参数:变化+时效性: 3. 断点调试,可以看到_qt及其具体参数:在JS中,参数名和具体数据都是拼接起来的。 ...原创 2020-01-03 17:47:49 · 13549 阅读 · 5 评论 -
Python爬虫福利第一弹---爬取校花校草吧图片
1. 采集网站:百度贴吧 采集内容:图片比如:下图中的校花吧的图片 :2.采集效果: ...原创 2020-01-02 12:58:47 · 32977 阅读 · 0 评论 -
全网采集壁纸360网站全网壁纸
1. 采集网站:妹子图,点击直达 采集内容:图片 网站如图,(自己去网站查看),太...(主要是怕过审不了),基本类似 2.采集思路: 如下图,翻页,图片链接都可以直接获取到,不涉及反爬,不详细分解,直接上code3.整体代码:# -*- coding:...原创 2020-08-05 13:56:40 · 16728 阅读 · 13 评论 -
Python反反爬系列(五)---小白学JS逆向(一)----百度翻译的sign值
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。1.前言: 简单爬虫,只要会python基础,都能把数据请求过来,稍微处理下就可以将数据保存了,个人认为爬虫能力的区分度就在于JS逆向这块,为了减少和大佬们的差距,特意还去学习了下JavaScript,点击直达笔记传送门。到目前为止,个人也解决了不少JS逆向的网站,从最初的遇到JS加密无从下手,到现在特别喜欢处理JS加密的...原创 2019-12-30 01:19:33 · 15194 阅读 · 0 评论 -
Python反反爬系列(二)----破解某点评网站静态字体加密(woff字体映射法)
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。1.提醒:采集之前找好代理,或者限制抓取频率,不然:2.网站: 某点评网站,直接说明给链接无法过审,已经审核两次了。。。3.随便点击一家店铺,查阅评论,顺带检查元素查看源码: 查看css,定位到字体映射文件: 熟悉的wo...原创 2019-12-27 14:58:33 · 18664 阅读 · 103 评论 -
Python反反爬系列(一)----K近邻算法与CSS动态字体加密
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。网站不好直接给出,给出论坛无法过审,观看破解过程即可。1.字体反爬 字体反爬也就是自定义字体加密映射,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。2.查看字体软件font creator点我下载,也可不下载,借助...原创 2019-12-29 17:06:18 · 15192 阅读 · 6 评论 -
爬虫-招聘系列2----boss某直聘
1.采集数据网站:boss直聘 为避免打广告嫌疑,自行前往官网查看2.网站分析搜索条件较上一篇51要多一点,但是提交参数原理都是一样的那么我们就下抓取职位为python,范围为全国的数据,其他也不限对网站数据查看,都在源码里3.对构造url,请求url:https://www.zhipin.com/c100010000/?query=python&am...原创 2019-12-23 23:29:20 · 13802 阅读 · 0 评论 -
爬虫-招聘系列1----51Job
1.采集数据网站:51job前程无忧 为避免打广告嫌疑,自行前往官网查看2.分析网站查询方式:总体来说分为4种,如下图: 即按职位,分为全国和某省市;按公司名称,分为全国和某省市3.先按全文(即职位)搜索,输入岗位,地点最中...原创 2019-12-23 23:28:45 · 12808 阅读 · 0 评论 -
Python抓取代理IP----用代理采集代理,构建自己的代理IP池
一.前言: 采集数据时,难免会遇到各种反爬机制,例如封IP就是很让人头疼的问题。 封IP又分为两种情形: 情形一:访问时间间隔短,访问太快,网站限制访问,直接提示访问频率太高,网站返回不是你所要请求的内容; 情形二:直接封禁IP,无法访问 ...原创 2019-12-20 22:11:21 · 17170 阅读 · 0 评论 -
Windows下安装pyspider以及遇到的坑
1.运行pip install pyspider,报了满屏幕的错,查找资料,找到解决方法: 1)安装依赖包:pip3 install wheel 2)到https://www.lfd.uci.edu/~gohlke/pythonlibs/下载另一个依赖pycurl,安装安装:pip3 install F:\各种浏览器下载\谷歌浏览器下载\pycurl-7.43...原创 2019-08-22 16:28:40 · 7608 阅读 · 0 评论 -
scrapy 报错twisted.webnewclient.ResponseNeverReceived。。。及附上请求头大全
报错代码: twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion.>]...原创 2019-03-12 16:23:54 · 18399 阅读 · 10 评论 -
六个Scrapy可视化管理工具总结
转载原文链接为:https://blog.csdn.net/mouday/article/details/84926296本文总结了与Scrapy框架相关的一些开源工具1、scrapyd项目地址:https://github.com/scrapy/scrapydScrapyd 是一个运行 Scrapy 爬虫程序的服务pip install scrapydscrapyd ...转载 2019-12-09 17:35:09 · 9636 阅读 · 2 评论 -
服务器用 可视化管理工具SpiderKeeper部署scrapy项目
1.安装环境 在已有Python3的环境下,运行 pip3 install scrapy pip3 install scrapyd pip3 install scrapyd-client pip3 install scrapy-redis pip3 install SpiderKeeper2.检测:在终端输入scrapyd[jason@izbp11nxks...原创 2019-12-09 15:53:05 · 7229 阅读 · 4 评论 -
解决selenium+chromedriver +IP代理插件,设置无界面报错的问题
针对有些动态网站,需要用到自动化测试工具。为了避免封IP保证抓取到数据,使用了IP代理;为了提高效率,想要设置成无界面模式,但是不管是windows下还是Linux下,一旦两者结合时,直接报错。报错代码如下:selenium.common.exceptions.WebDriverException: Message: unknown error: failed to wait for e...原创 2019-12-18 18:45:51 · 21929 阅读 · 27 评论 -
Python反反爬系列(三)---前端JS对非数字加密成16进制,Python解密
1.加密详情:只给定初始值 加密后的URl:加密前后:加密前能拿到:4028492d6e647e23016eb10507286507被处理成: 2576c1666c61673d33266e616d653d47435f4a59266b65793d34303238343932643...原创 2019-12-03 11:57:31 · 7749 阅读 · 0 评论 -
selenium + Chrome 解决滑动验证码四
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。逻辑和前三篇博客一样,这里就直接上代码了 。由于某某查网站迭代较快,这里是九月份的版本# -*- coding: UTF-8 -*-'''@Author :Jason@Date :2019/9/10 18:19@Desc :Crate By Jason某某查验证码 为注册时的验证码 没有账号参考 https://b...原创 2019-12-29 16:19:58 · 15996 阅读 · 0 评论 -
selenium + Chrome 滑动验证码破解三之京东 实现某东登录
之前爬取模拟登录B站和模拟春秋官网的注册验证码,问题都不大.所以今天想挑战下某东,对于稍微有些爬虫基础的来说脚本到登录界面应该都没什么问题,这部分就直接上代码了哈1.最先开始到输入账号密码,点击登录出现验证码的代码 def __init__(self): self.url = 'https://passport.jd.com/new/login.aspx' ...原创 2019-09-06 15:46:50 · 17438 阅读 · 12 评论 -
selenium + Chrome 解决滑动验证码二
声明:文章仅源自个人兴趣爱好,不涉及他用,侵权联系删。具体详情见代码,研究网站很简单,就是输入手机号点击获取验证码,就会弹出滑动验证码这种在自己写代码前参考了一批博客,是把所有验证码图片截取所有验证码图片保存在本地,再对比,感觉方法不行,所以自己写了个破解方法,通过js修改css直接抓取完整图片,因为上一篇写了B站,这里就不一一分析了,直接上代码:完整代码:# -*-...原创 2019-12-29 16:42:59 · 14627 阅读 · 0 评论 -
Status Code 304
1.请求状态:2.代码实现:3.初步解决方法:先将UA等带上,再次发起请求,3044.了解304(简单的表达就是:服务端已经执行了GET,但文件未变化)客户端在请求一个文件的时候,发现自己缓存的文件有 Last Modified ,那么在请求中会包含 If Modified Since ,这个时间就是缓存文件的 Last Modified 。因此,如果请求中包含 I...原创 2019-10-25 11:52:39 · 8305 阅读 · 0 评论 -
解决 selenium登录知乎报错10001:请求参数异常
1.问题 用selenium + 模拟登陆知乎时报错10001:请求参数异常,请升级客户端 1.2.分析原因具体原因是用了自动化测试工具,通过js代码还是能识别出来的,例如你在用了自动化测试工具的控制台输入window.navigator.webdriver结果返回了true,说明人家已经识别到你使用了自动化工具...原创 2019-11-01 15:49:25 · 16482 阅读 · 8 评论 -
selenium + Chrome 滑动验证码破解一之B站 实现B站登录
代码成功率达到90%以上大体思路: 通过URL,获取到页面,输入用户名,密码,点击登录,跳出验证码 通过 EX.presence_of_element_located自带的方法获screenshot()获取缺口图片。通过JS修改css样式,获取完整图片 再通过图像识别,获取到起点位置,设置移动轨迹,OK,基本结束;1.登录界面: 输入账号密码,点击登录...原创 2019-09-06 15:09:27 · 8132 阅读 · 0 评论 -
python scrapy 脚本报错
原本一个好好的爬虫脚本,最近运行时突然报错: 报错代码如下 File "e:\python3.7.1\lib\site-packages\scrapy\core\downloader\middleware.py", line 43, in process_request defer.returnValue((yield download_func(request=requ...原创 2019-02-25 15:49:20 · 8059 阅读 · 0 评论 -
用CrawlerProcess进程一键启动多个scrapy爬虫脚本(原创)
利用此脚本可以一键启动scrapy框架下spiders爬虫文件夹下的多个爬虫,按道理也是可以启动多个单独爬虫脚本的(没用框架),希望对您有帮助。1.获取需要爬取脚本文件名2.获取爬虫名3.启动废话不多说,直接上代码import osimport refrom scrapy.crawler import CrawlerProcessfrom scrapy.utils.pro...原创 2019-02-18 15:23:06 · 8700 阅读 · 0 评论 -
Python反反爬系列(四)----前端JS进行AES加密,Python解密
将6位或者7位数字加密成22位数字字母大小写的加密方法。采集数据时,遇到对Url进行加密的网站,大致加密情形如下1.编译加密前的url 在列表页的url如下 2.加密后的Url 除了端口这块没了,还有就是其他地方也变了 3.仔细观察参...原创 2019-12-02 10:10:48 · 8113 阅读 · 0 评论 -
selenium+webdriver操作cookie
1.目标网站: https://www.fjggfw.gov.cn/cookie具有时效性,因此需要先将cookie保存下来;2.用requests获取cookie requests.utils.dict_from_cookiejar:把cookiejar对象转化为字典import requestsurl = "https://...原创 2019-11-28 10:26:54 · 7591 阅读 · 3 评论