
爬虫补充[暂免费]
文章平均质量分 90
梦想橡皮擦
技术&自媒体,畅游互联网11年,什么语言都懂一点点,商务V moshanba
擅长Python,C++,Go,MySQL
展开
-
电子课本分析,基于参数跳转逻辑的实现,Python爬虫实战分析
声明:本篇博客不会涉及详细爬虫代码,仅展示数据采集过程中的关键信息。实战需求来源为博主邻居诉求,她希望为自己的孩子找到下学期的电子教材,然后就有了本案例。由于爬虫类知识点无法对大家直接展示,所以详细网址请查看评论区,或者联想一下。原创 2023-03-11 20:07:12 · 15701 阅读 · 1 评论 -
【爬虫理论实战】详解常见头部反爬技巧与验证方式 | 有 Python 代码实现
User-Agent字段的伪装方式,Referer字段的伪装方式,Cookie字段的伪装方式。原创 2023-02-19 18:09:33 · 3778 阅读 · 1 评论 -
爬虫基本知识的认知(爬虫流程 HTTP构建)| 爬虫理论课,附赠三体案例
HTTP(HyperText Transfer Protocol)是一种应用层协议,用于在客户端和服务器之间传输超文本数据。HTTP 协议是一个基于请求-响应模型的协议,客户端发送 HTTP 请求到服务器,服务器返回 HTTP 响应。请求行请求头和请求体。请求行包括请求方法、URL 和 HTTP 版本号;请求头包括一些关于请求的元数据,比如 User-Agent、Cookie 等;请求体则包含请求的数据。状态行响应头和响应体。状态行包括响应的状态码和状态文本;原创 2023-02-19 17:32:50 · 3217 阅读 · 0 评论 -
爬虫圈,常见的加密手段,你应该了解一下
md5 信息摘要算法,是最常用的密码散列函数,其可以产生 128 位的散列值,也就是 128 个 0 和 1 的二进制串,由于长度太长,故将二进制转换成了 16 进制,每 4 位表示一个十六进制,因此常见的 md5 都是 32 位。在实践中还存在 16 位的 md5 值,该值是将 32 位 md5 去掉前 8 位,去掉后 8 位得到。在Code目录建立15_demo文件夹,然后创建。原创 2023-02-12 20:25:35 · 3479 阅读 · 1 评论 -
如何通过限制 IP 相关信息 | 控制用户访问站点频率
在常规的反爬手段中,IP 限制是应用广泛且比较有效的,但其存在一定的误杀,因同一 IP 下可能不止一位用户。本实验从 Nginx 限制特定 IP 的配置开始学习,然后扩展到限制 IP 访问频次,最后通过文本文件模拟了黑名单 IP 库限制爬虫 IP 这一技术点。原创 2023-02-12 20:22:22 · 3804 阅读 · 0 评论 -
写python爬虫,你永远绕不过去代理问题
代理是一种中间人(赚差价的中间商)的角色 🧔,它帮助用户发送网络请求 💻,同时隐藏用户的真实身份 🕵️♂️。通俗的解释,就是你想去买某件见不得人的物品,自己不好意,然后请一个代理帮你完成这件事情。代理人替你发送请求,并将物品送到你制定的地址,卖家只知道有代理人,不知道你是谁。代理在网络中也是这样的工作方式,它代表用户发送请求,隐藏用户的真实身份。原创 2023-02-10 23:44:11 · 4831 阅读 · 4 评论 -
python爬虫工程师 | 都会遇到的反爬手段,详细展示低难度反爬
在爬虫实战过程中,常见的反爬手段如下所示。IP 地址限制Cookies 限制频率限制HTTPS 加密。原创 2023-02-09 11:21:47 · 4957 阅读 · 0 评论 -
在职爬虫工程师,带给大家超简单 Python 爬虫教程
本篇 Python 爬虫教程主要讲解以下5部分内容,请按照顺序进行学习。1. 爬虫概述:介绍什么是爬虫,爬虫的目的和应用。2. 爬虫基础知识:介绍爬虫的基本概念,例如网络协议,HTML 结构,CSS 样式表等。3. Python 爬虫开发:介绍如何使用 Python 进行爬虫开发,包括安装需要的第三方库,爬取网页的方法和如何处理获取的数据。4. 爬虫技巧:介绍如何提高爬虫的效率,例如如何避免 IP 封禁,如何加速爬取速度等。5. 爬虫实战:介绍如何通过实际案例深入了解爬虫的应用,例如如何爬取新闻原创 2023-02-07 14:01:04 · 4105 阅读 · 2 评论 -
字体反爬,一种来自字体设计师的跨行反爬案例 | 案例 28
本篇博客实现的是最简单的字体反爬,实战中我们还可以动态生成字体文件编码,动态生成字体文件内容增强反爬。pachong📢📢📢📢📢📢💗 你正在阅读【梦想橡皮擦】的博客👍 阅读完毕,可以点点小手赞一下🌻 发现错误,直接评论区中指正吧📆 橡皮擦的第851篇原创博客全网 6000+人正在学习的 爬虫专栏 👇👇👇👇⭐️ Python 爬虫 120,点击订购 ⭐️⭐️ 爬虫 100 例教程,点击订购 ⭐️。原创 2023-01-28 15:45:12 · 3259 阅读 · 1 评论 -
Python 采集免费代理,并检测其是否可用
本篇博客将采集互联网中公开代理 IP,并通过 IP 检测站点检测代理的可用性。未来该内容将会被集成到中。原创 2023-01-28 10:21:13 · 3790 阅读 · 2 评论 -
Python将JSON格式文件导入 redis,多种方法
在导入前需要先确定你已经安装 Redis,并且可以启动相关服务。windows 上启动 redis 的命令是。原创 2023-01-27 18:21:02 · 4418 阅读 · 1 评论 -
呦~,这不 SVG 映射反爬么,这你都会?厉害厉害 | 案例 27
在正式学习本篇博客前,先要了解一下什么是 SVG(Scalable Vector Graphics),它是一种矢量图形格式,可以用来在网页上创建可伸缩的图形。阅读本篇博客前,需要提前了解一下如何在 Python 中生成 SVG 图片,这一点可以参考下述博客。原创 2023-01-27 17:22:18 · 3338 阅读 · 1 评论 -
Python压缩JS文件,PythonWeb程序员必看系列,重点是 slimit
slimit 使用了 LALR(1) 语法分析器来解析 JavaScript 代码,并使用自己的算法来压缩代码。它会移除不必要的空格、注释和换行符,并返回压缩后的 JavaScript 代码。的函数,可以将 JavaScript 代码作为字符串传入,并返回压缩后的 JavaScript 代码。是 Python 编写的 JavaScript 代码压缩工具,该库的使用与。在压缩前,请提前准备一个未被压缩的 JS 文件,便于对口前后效果。基本一致,压缩速度会快一些,所有的逻辑都使用正则表达式实现。原创 2023-01-26 10:57:47 · 3373 阅读 · 0 评论 -
Python Flask 框架设置响应头,一篇文章学明白
函数来创建响应对象,然后遍历配置中的响应头来添加响应头了,该写法的优点是,我们可以在不修改应用程序代码的情况下更改响应头, 也可以根据环境来设置不同的响应头。Flask 有许多第三方扩展可以帮助你更简单的配置响应头, 比如 Flask-Cors,Flask-Security 等,这些内容以后用单独的博客进行说明。函数来返回特定状态码的响应,并设置响应头。中间件是一种在请求和响应之间添加额外处理的机制,可以使用中间件来设置响应头。除了在视图函数中设置响应头之外,Flask 还提供了其他方式来配置响应头。原创 2023-01-25 21:46:32 · 6774 阅读 · 0 评论 -
Python 压缩 css 文件,第三方模块推荐
本篇博客为大家介绍了三款 Python 库,都可以实现对 CSS 文件的压缩,使用方式也基本类似,实践中可以综合分析然后选择使用。原创 2023-01-25 14:44:49 · 3386 阅读 · 1 评论 -
python cairosvg 库专题博客,10分钟掌握 cairosvg
除了在 Python 程序中进行控制外,cairosvg 还支持使用命令行来转换 SVG 图像。命令行支持所有上述参数,可以使用--help参数来查看详细用法。cairosvg。📢📢📢📢📢📢💗 你正在阅读【梦想橡皮擦】的博客👍 阅读完毕,可以点点小手赞一下🌻 发现错误,直接评论区中指正吧📆 橡皮擦的第835篇原创博客从订购之日起,案例 5 年内保证更新⭐️ Python 爬虫 120,点击订购 ⭐️⭐️ 爬虫 100 例教程,点击订购 ⭐️。原创 2023-01-17 20:01:11 · 4116 阅读 · 0 评论 -
Python 生成 svg 图片,一篇博客带你掌握 Python 与 svg 之间的操作
是一个 Python 库,用于生成简单的 SVG 图片。它提供了一组类似于绘图的 API,使用者可以在 SVG 画布上画线、矩形、圆等图形。在后续的反爬实战中,我们需要动态渲染手机号码,因此这里需要用到 svg 生成手机号效果,代码示例如下。为了便于我们进行数字加密,还可以使用 svgwrite 库随机生成 1-10 之间的数字。运行之后的效果如下所示,这里一定要掌握,后期咱们有大用。在接下来的几篇博客中,我们将为你逐步解析上述库。运行代码,会在红色矩形上生成一个黑色的手机号码。原创 2023-01-17 19:36:08 · 18406 阅读 · 0 评论 -
CSS 伪元素也可以被用于反爬案例?来学习一下。26
先说一下什么是 CSS 中的伪元素,CSS 伪元素的概念是指在 CSS 中使用的一些特殊的元素,它们不存在于 HTML 文档中,而是由浏览器生成的元素,用于提供额外的样式控制。这些伪元素在 HTML 代码中不存在,但可以在 CSS 中通过特定的语法来选择它们。原创 2023-01-16 21:49:21 · 4943 阅读 · 2 评论 -
Python aiohttp 库是否值得学?那必须要掌握呀
aiohttp 是一个基于 asyncio 的异步 HTTP 客户端/服务器库。它提供了一组用于编写高性能异步网络应用程序的工具,包括基于协程的客户端和服务器。库的安装使用 pip install aiohttp。原创 2023-01-16 10:32:49 · 13338 阅读 · 1 评论 -
听说你想用开发者工具调试我的网站?挺可以的啊。25
本篇博客重点为大家介绍,如何禁止用户在浏览器中查看源码,禁用开发者工具调试等前端需求案例已更新到。原创 2023-01-14 20:11:08 · 3991 阅读 · 4 评论 -
24. CSS偏移反爬见过没,打开本文你就能学会 | 爬虫训练场
本篇博客实现 CSS 偏移反爬案例,核心用到 CSS 定位样式,防止爬虫采集。案例已更新到。原创 2023-01-12 21:27:39 · 4194 阅读 · 2 评论 -
23. 反爬案例:不登录不给,要数据请先登录我的站点
登录之后,可以查看数据,是部分站点常用规则,本篇博客将在爬虫训练场中实现该需求。原创 2023-01-11 16:34:12 · 13582 阅读 · 4 评论 -
Python flask 框架使用 flask-login 模块,来学习一下吧
一个 Flask 模块,可以为 Flask 应用程序提供用户登录功能。这了有个小细节需要注意,模块安装都使用中划线(),模块使用时用下划线在应用程序中导入并初始化上述代码中提及了类,该类是 Flask-Login 提供的主要入口点,用于管理用户登录状态。在你的 Flask 应用程序中初始化它。然后我们可以使用init_app()函数来初始化 LoginManager 实例并绑定到指定的 Flask 应用上。这样就可以在应用程序中使用该实例来管理用户登录状态。login_view。原创 2023-01-11 13:51:25 · 14625 阅读 · 2 评论 -
22. 听说你想要用爬虫采集我的手机号?哎 ~ 我展示用的是图片
本篇博客我们实现图片渲染手机号码案例,用于防止爬虫直接采集文字信息。本案例实现的效果如下所示。原创 2023-01-10 16:59:31 · 5040 阅读 · 3 评论 -
【小知识点】Centos 自动任务,定时执行 Python 脚本
本篇博客主要为大家简单概述如何在 CentOS 中配置自动任务,定时执行 Python3 脚本代码。原创 2023-01-08 14:40:15 · 14038 阅读 · 2 评论 -
【小知识点】Python随机生成 Phone 号码,测试用~
在爬虫实战中,有一项数据是不能采集的,这个数据就是电话号,所以本篇博客补充这个小知识点,用 Python 随机生成电话号,便于后续使用。函数,它可以将 Python 字典转换为 JSON 格式的字符串,作为 HTTP 响应主体返回。然后我们将上述代码封装到爬虫训练场中,形成一个新的API接口,便于后续使用。在 Python Flask 中返回JSON数据,用到。模块来生成随机的前缀和后缀,再将它们组合起来即可。在 Python 中生成电话号码,你可以使用。原创 2023-01-07 20:37:53 · 14640 阅读 · 1 评论 -
【小知识点】免费头像API,用 Python Flask 动态生成一个汉字头像
本案例是项目的衍生案例,用于渲染用户头像,大家也可以将该接口用于其它目的。本文会使用随机汉字生成技术,如未掌握,可以查看。原创 2023-01-06 20:52:19 · 14869 阅读 · 1 评论 -
【小知识点】Python 随机生成一个汉字,提供了多种办法,目的竞然是用于创建头像
直接使用 Unicode 编码,会出现很生僻字,在实战中可以使用部分策略解决该问题,例如找一篇长文,将其存储到一个文本文件中,然后使用 Python 的读写文件功能来读取文件中的汉字。生成随机汉字的模块不是 Python 自带的功能,但是你可以使用 Python 的 random 模块来生成随机数,然后使用 Unicode 编码来获取对应的汉字。中读取文字,这里再补充一个步骤,由于随机生成的文本中会有标点符号,所以需要进行去除。项目时,碰到一个随机头像的需求,这里用汉字去随机生成。原创 2023-01-06 19:15:18 · 14871 阅读 · 0 评论 -
【小知识点】Python Flask 中使用 cryptography 模块实现加密
message = b"xiang_pi_ca" # 生成信息摘要 digest = hashes . Hash(hashes . SHA256() , backend = default_backend()) digest . update(message) digest = digest . finalize() print(digest)函数返回一个默认的加密后端,即一个用于实现加密算法的对象。通常,你不需要直接使用这个函数,而是将它传递给其他函数或方法,以便使用默认的加密后端来实现算法。这里将。原创 2023-01-06 16:26:47 · 14587 阅读 · 0 评论 -
21. 反爬工程师都会用的手段,IP限制反爬 - 爬虫训练场
你也可以自己实现一个中间件来实现 IP 限制。中间件是一个可以在请求和响应之间插入的代码,通常用于实现某些功能,比如认证、IP 限制等。def ip_limiter(app) : def middleware(next) : def wrapper(* args , ** kwargs) : # 在这里处理 IP 限制逻辑 return next(* args , ** kwargs) return wrapper return middleware后续操作是在函数中实现 IP 限制逻辑即可。原创 2023-01-05 20:05:01 · 16102 阅读 · 3 评论 -
20. 一秒一个Token甩到前台,吓死在座的各位爬虫工程师
本篇博客是爬虫训练场中的基础反爬案例,核心实现通过动态 token 验证限制爬虫学习过程重点是反爬思维学习。原创 2023-01-04 16:30:44 · 15457 阅读 · 3 评论 -
【小知识点】为爬虫训练场项目添加 Bootstrap5 时间轴
时间轴通常是按照时间顺序排列的(爬虫训练场采用的形式),也可以按照其它因素进行排序,如按照重要性或分类等。时间轴可以通过向左或向右滑动来查看历史信息,也可以通过点击缩略图、下拉菜单或时间线来选择查看特定时间段的信息。每个时间节点都对应一条水平的信息条,上面包含了关于该时间节点的信息。时间轴是一种常用的网站布局元素,通常用来展示网站历史事件或里程碑式的信息。由于本文是一个小知识点,所以我们就不进行独立设计了,直接集成别人的插件即可,示例效果可以去下载频道获取源码。背景说明完毕,下面看一下我们是如何集成的。原创 2023-01-04 10:06:58 · 15605 阅读 · 0 评论 -
19. 网站响应数据加一个简单的密,就能挡住80%的爬虫,你信吗?
本篇博客我们实现响应加密,由于本案例是JS逆向阶段的第一个案例,所以采用最基础加密手段。爬虫训练场源码同步仓库为。原创 2023-01-03 18:05:53 · 15053 阅读 · 1 评论 -
18. 离职原因:让 BOSS 学习“滚动加载”这一名词
本案例最后一个步骤时补齐JS代码,经过反复测试 ,插件的引入和使用需要在 DOM 对象之后,代码如下。原创 2023-01-03 10:00:47 · 14817 阅读 · 0 评论 -
17. 老板让我手动控制网页渲染速度,说这能反爬虫?我信了。
手动数据延迟加载,真的可以反爬虫爬虫训练场项目,加速更新中,专栏清单参考本次案例需要的代码量特别小,所以咱们再 Nginx 中也进行一下相关配置。原创 2023-01-02 20:19:51 · 15333 阅读 · 1 评论 -
16. 你很勇哦,这么点数据就敢用异步加载?
爬虫训练场项目第16课,异步AJAX加载学校清单。爬虫训练场,让天下没有失效的爬虫,2023年橡皮擦最新专栏。原创 2022-12-31 20:59:04 · 15212 阅读 · 16 评论 -
15. 我是怎么用一个特殊 Cookie ,限制住别人的爬虫的
爬虫训练场,第15篇博客。博客详细清单,参考本次案例,用定值 Cookie 实现反爬。原创 2022-12-31 11:20:10 · 20579 阅读 · 2 评论 -
14. UserAgent 反爬是如何实现的,来看看这篇博客 &
User-Agent 反爬是一种防止网站被爬虫爬取的技术。当爬虫向网站发送 HTTP 请求时,会在请求头中包含一个名为 “User-Agent” 的字段,该字段用于告知网站服务器请求来自哪种浏览器或爬虫。网站服务器可以通过检查这个字段来判断请求是由真实的浏览器发起的,还是由爬虫发起的。如果服务器发现请求中的 User-Agent 字段不是某种常见浏览器的名称,就可能认为请求来自爬虫,并返回一个错误响应或拒绝请求。这就是 User-Agent 反爬的原理。原创 2022-12-28 21:59:49 · 15270 阅读 · 1 评论 -
13.爬虫训练场集成文件采集案例,来学习一下怎么实现的
本篇博客,我们在 爬虫训练场 项目中集成文件下载案例,便于大家学习文件采集。文章分为三部分,分别是普通文件,MP4 文件,M3U8格式视频文件。原创 2022-12-28 18:16:08 · 14604 阅读 · 0 评论 -
12. 爬虫训练场项目,jinja2 模板继承,项目继续迭代
本篇博客我们将前端模板的通用部分进行抽离,便于整理管理,使用的是 jinja2 中模板继承相关技术。原创 2022-12-27 21:29:04 · 14828 阅读 · 0 评论