Python爬虫_bmx_rikes的博客-CSDN博客

Python爬虫

关注

文章平均质量分 55

关注数：文章数：11 文章阅读量：30406 文章收藏量：64

作者: bmx_rikes

这个作者很懒，什么都没留下…

展开

Centos7 使用pm2快速安装创建定时任务

博客园地址：https://www.cnblogs.com/smallbike/p/create_pm2.htmlCentos7 安装 pm2一丶拿到一个动态拨号的服务器还不用使用网络得先打开：pppoe-start如果没有wget，需要先下载安装：yum install wget二丶环境搭建wget https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.xz （下载）xz -d node-v10.9.0-linux-x64

原创 2022-04-14 16:11:42 · 728 阅读 · 0 评论
js逆向之AES加密

博览园地址：https://www.cnblogs.com/smallbike/p/btc_aes.html故事背景：在获取某网站接口数据时，发现其请求的 headers 中的参数使用了 AES算法加密，并对其进行校验，在此简单记录下自己的踩坑历程。AES简介：高级加密标准(AES,Advanced Encryption Standard)为最常见的对称加密算法。对称加密算法也就是加密和解密用相同的密钥。AES加密方式有五种：ECB, CBC, CTR, CFB, OFBCBC：加密需要一个

原创 2022-04-14 16:08:33 · 1166 阅读 · 0 评论
迷惑小错之：requests.exceptions.ProxyError

缘由当打开代理或者抓包工具时 pycharm运行发包请求报错： requests.exceptions.ProxyError。关掉代理后又能正常的请求，这样对于我们日常操作很不方便吗。四处查找资料无果后很是头大，有幸在群中看到大佬回答了此问题，果断记下##原因urllib3的版本过高，可能存在bug，有兴趣的可以去GitHub的urllib3模块issues了解了解##解决版本urllib3 降低版本： pip uninstall urllib3 —> pip install urllib

原创 2022-04-14 16:06:02 · 772 阅读 · 0 评论
python爬虫---字体反爬

目标地址：http://glidedsky.com/level/web/crawler-font-puzzle-1打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为字体反扒直接进入正题：###获取字体文件：####1丶直接找到数字节点属性：style 的 font-family 的值：glided_sky，在源码中找到引入的的字体文件并保存下来到本地####2丶该字体文件通过base64编码保存的直接请求将编码的值和节点中的数字内容获取到 (

原创 2022-04-14 16:04:14 · 957 阅读 · 0 评论
【Python爬虫】Scrapy框架的核心架构和执行流程

原文来源(侵删): https://blog.csdn.net/qq_35187510/article/details/80006208 首先，要搞清楚Scrapy的架构就必须明白Scrapy中的组件以及各个组件的作用。接下来，我们看一看Scrapy框架的组件有哪些以及它们的作用。（1）Scrapy引擎：引擎是Scrapy架构的核心，负责数据和信号在组件间的传递。 ...

转载 2018-09-07 02:21:16 · 1094 阅读 · 0 评论
【Python爬虫】验证码图像识别 --- 第二弹 (点触验证码识别和打码平台介绍)

上一次介绍的是 ORC 技术对图片进行识别 , 不过识别率并不是很理想, 接下来在这里介绍几个自己觉得好用的打码平台供大家参考一丶baidu-aip: 通用文字识别官网有教程:接入指南: https://ai.baidu.com/docs#/Begin/top Python sdk 文档: http://ai.baidu.com/...

原创 2018-09-04 00:37:48 · 9172 阅读 · 2 评论
【Python爬虫】轻松几步将 scrapy 框架获取得到的数据存储到 MySQL 数据库中

以下操作是在一个完整的 scrapy 项目中添加代码: 中间件和 spiders 中的代码都不需要修改只需要做下面两件事就可以将数据保存到数据库了，不过在写代码之前我们要先：在终端执行命令：net start mysql57 开启 mysql 服务器创建数据库，在数据库中创建与要保存相关的数据的表（名称要与...

原创 2018-09-05 11:33:31 · 792 阅读 · 0 评论
【Python爬虫】 scrapy框架添加IP代理池反反爬

国内的免费IP代理网站参考: http://www.xicidaili.com/wt https://www.kuaidaili.com/free/ http://www.youdaili.net/Daili/guonei/ ...

原创 2018-09-05 11:21:31 · 8401 阅读 · 2 评论
【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

分布式爬虫: 一般用于爬取数量巨大 , 短时间快速爬取将一个正常的scrapy项目改成 scrapy_redis 分布式爬取只需几步简单的添加配置即可 :setting.py 文件中的参数配置:添加:# 使用的是scrapy_redis的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilte...

原创 2018-09-04 10:30:51 · 1108 阅读 · 0 评论
【Python爬虫】验证码图像识别 --- 第三弹 (极验验证码识别)

使用selenium模拟浏览器完成极验验证码的识别: 首先使用PIL模块获取到验证码有缺块和没缺块的两张图片图片然后对这两张图片进行比较获取到却块的偏移量,再根据偏移量,算出他的移动轨迹最后获取到滑块,模拟鼠标点击滑动完成拼图; 注意 : 滑块滑动的时候要变速滑动,不然会被检测到不是人为拼图,就算拼完整了也算失败代码如...

原创 2018-09-04 10:17:31 · 4500 阅读 · 4 评论
【Python爬虫】使用 tesserorc 进行图像的识别 ---- 填坑总结

在使用tesserorc 时博主也遇到了诸多问题在经过四处碰壁与资料查找后最终安装成功,并成功的完成了图像识别 , 事后总结这这一条阳光大道 , 方法仅供参考 , 希望对各位正处于到坑中的小伙伴们有所帮助 . 如果您有更好的方法 , 欢迎评论或留下您的传送门 1丶先下载安装tesseract: 下载链接:ht...

原创 2018-08-22 17:50:22 · 1716 阅读 · 0 评论

Python爬虫

作者: bmx_rikes

Centos7 使用pm2快速安装创建定时任务

js逆向之AES加密

迷惑小错 之 ：requests.exceptions.ProxyError

python爬虫---字体反爬

【Python爬虫】Scrapy框架的核心架构和执行流程

【Python爬虫】 验证码图像识别 --- 第二弹 (点触验证码识别和打码平台介绍)

【Python爬虫】 轻松几步 将 scrapy 框架 获取得到的 数据 存储到 MySQL 数据库中

【Python爬虫】 scrapy框架 添加IP代理池 反反爬

【Python爬虫】 轻松几步 将 一个 scrapy项目 变成 scrapy_redis 分布式爬取

【Python爬虫】 验证码图像识别 --- 第三弹 (极验验证码识别)

【Python爬虫】 使用 tesserorc 进行 图像的识别 ---- 填坑总结

迷惑小错之：requests.exceptions.ProxyError

【Python爬虫】验证码图像识别 --- 第二弹 (点触验证码识别和打码平台介绍)

【Python爬虫】轻松几步将 scrapy 框架获取得到的数据存储到 MySQL 数据库中

【Python爬虫】 scrapy框架添加IP代理池反反爬

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

【Python爬虫】验证码图像识别 --- 第三弹 (极验验证码识别)

【Python爬虫】使用 tesserorc 进行图像的识别 ---- 填坑总结