Python爬虫
文章平均质量分 55
bmx_rikes
这个作者很懒,什么都没留下…
展开
-
Centos7 使用pm2快速安装创建定时任务
博客园地址:https://www.cnblogs.com/smallbike/p/create_pm2.htmlCentos7 安装 pm2一丶拿到一个动态拨号的服务器还不用使用网络得先打开:pppoe-start如果没有wget,需要先下载安装:yum install wget二丶环境搭建wget https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.xz (下载)xz -d node-v10.9.0-linux-x64原创 2022-04-14 16:11:42 · 708 阅读 · 0 评论 -
js逆向之AES加密
博览园地址:https://www.cnblogs.com/smallbike/p/btc_aes.html故事背景:在获取某网站接口数据时,发现其请求的 headers 中的参数 使用了 AES算法加密 ,并对其进行校验,在此简单记录下自己的踩坑历程。AES简介:高级加密标准(AES,Advanced Encryption Standard)为最常见的对称加密算法。对称加密算法也就是加密和解密用相同的密钥。AES加密方式有五种:ECB, CBC, CTR, CFB, OFBCBC:加密需要一个原创 2022-04-14 16:08:33 · 1157 阅读 · 0 评论 -
迷惑小错 之 :requests.exceptions.ProxyError
缘由当打开代理或者抓包工具时 pycharm运行发包请求报错: requests.exceptions.ProxyError。关掉代理后又能正常的请求,这样对于我们日常操作很不方便吗。四处查找资料无果后很是头大,有幸在群中看到大佬回答了此问题,果断记下##原因urllib3的版本过高,可能存在bug, 有兴趣的可以去GitHub的urllib3模块issues了解了解##解决版本urllib3 降低版本: pip uninstall urllib3 —> pip install urllib原创 2022-04-14 16:06:02 · 767 阅读 · 0 评论 -
python爬虫---字体反爬
目标地址:http://glidedsky.com/level/web/crawler-font-puzzle-1打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为 字体反扒 直接进入正题:###获取字体文件:####1丶直接找到数字节点属性:style 的 font-family 的值:glided_sky,在源码中找到 引入的的字体文件 并保存下来到本地####2丶该字体文件通过base64编码保存的 直接请求 将编码的值 和 节点中的数字内容 获取到 (原创 2022-04-14 16:04:14 · 938 阅读 · 0 评论 -
【Python爬虫】Scrapy框架的核心架构和执行流程
原文来源(侵删): https://blog.csdn.net/qq_35187510/article/details/80006208 首先,要搞清楚Scrapy的架构就必须明白Scrapy中的组件以及各个组件的作用。接下来,我们看一看Scrapy框架的组件有哪些以及它们的作用。 (1)Scrapy引擎:引擎是Scrapy架构的核心,负责数据和信号在组件间的传递。 ...转载 2018-09-07 02:21:16 · 1087 阅读 · 0 评论 -
【Python爬虫】 验证码图像识别 --- 第二弹 (点触验证码识别和打码平台介绍)
上一次 介绍的是 ORC 技术 对 图片进行识别 , 不过 识别率 并不是很理想, 接下来 在这里介绍 几个 自己觉得好用的打码平台供 大家参考 一丶baidu-aip: 通用文字识别 官网有教程:接入指南: https://ai.baidu.com/docs#/Begin/top Python sdk 文档: http://ai.baidu.com/...原创 2018-09-04 00:37:48 · 9162 阅读 · 2 评论 -
【Python爬虫】 轻松几步 将 scrapy 框架 获取得到的 数据 存储到 MySQL 数据库中
以下操作 是在 一个 完整的 scrapy 项目中 添加 代码: 中间件 和 spiders 中的代码 都不需要修改 只需要 做下面两件事就可以将数据保存到数据库了,不过在写代码之前 我们要先: 在终端 执行命令:net start mysql57 开启 mysql 服务器 创建数据库,在数据库中创建与要保存相关的数据的表(名称要与...原创 2018-09-05 11:33:31 · 788 阅读 · 0 评论 -
【Python爬虫】 scrapy框架 添加IP代理池 反反爬
国内的免费IP代理网站参考: http://www.xicidaili.com/wt https://www.kuaidaili.com/free/ http://www.youdaili.net/Daili/guonei/ ...原创 2018-09-05 11:21:31 · 8394 阅读 · 2 评论 -
【Python爬虫】 轻松几步 将 一个 scrapy项目 变成 scrapy_redis 分布式爬取
分布式爬虫: 一般用于 爬取数量巨大 , 短时间快速爬取 将一个正常的scrapy项目改成 scrapy_redis 分布式爬取 只需 几步简单的添加配置即可 :setting.py 文件中 的参数配置:添加:# 使用的是scrapy_redis的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilte...原创 2018-09-04 10:30:51 · 1104 阅读 · 0 评论 -
【Python爬虫】 验证码图像识别 --- 第三弹 (极验验证码识别)
使用selenium模拟浏览器完成极验验证码的识别: 首先使用PIL模块获取到验证码 有缺块 和 没缺块 的两张图片图片然后对这两张图片进行比较获取到却块的偏移量,再根据偏移量,算出他的移动轨迹最后 获取到滑块,模拟鼠标点击滑动完成拼图; 注意 : 滑块滑动的时候要变速滑动,不然会被检测到不是人为拼图,就算拼完整了也算失败代码如...原创 2018-09-04 10:17:31 · 4495 阅读 · 4 评论 -
【Python爬虫】 使用 tesserorc 进行 图像的识别 ---- 填坑总结
在使用tesserorc 时 博主也遇到了诸多问题 在经过 四处碰壁 与 资料查找后 最终安装成功,并成功的完成了图像识别 , 事后总结这这一条阳光大道 , 方法仅供参考 , 希望 对 各位正处于到坑中的小伙伴们有所帮助 . 如果您有更好的方法 , 欢迎评论 或 留下 您的 传送门 1丶 先下载安装tesseract: 下载链接:ht...原创 2018-08-22 17:50:22 · 1713 阅读 · 0 评论