怪侠_岭南一只猿-CSDN博客

原创爬虫工程师学习路径 · 阶段五：数据存储与清洗（完整学习文档）

本阶段将带你掌握数据存储与清洗的核心技能，学会使用关系型和非关系型数据库持久化数据，并通过清洗、去重、格式化等操作提升数据质量。完成本阶段后，你将能够构建完整的数据管道，为后续的数据分析和应用打下坚实基础。MongoDB 是一种文档型数据库，数据以 BSON（类似 JSON）格式存储，非常适合爬虫抓取的半结构化数据（如房源信息、网页快照）。查询数据库，确认数据已正确插入，再次运行脚本，检查是否更新了数据（可故意修改某个电影的评分，观察更新）。在爬虫中，我们往往需要定期更新数据，避免重复插入。

2026-03-16 09:49:16 1047

原创爬虫工程师学习路径 · 阶段四：反爬虫对抗（完整学习文档）

网站可以通过收集浏览器的各种属性（如 User-Agent、屏幕分辨率、语言、插件、Canvas 指纹等）来生成一个唯一标识，即使更换 IP 也能识别出同一浏览器。

2026-03-12 22:22:02 1600

原创爬虫阶段三实战练习题二：使用 Selenium 模拟爬取拉勾网职位表

是拉勾网使用技术生成的动态哈希类名，每次部署或刷新页面都可能变化。硬编码这种类名，很可能在下次访问时就失效，导致一直等待超时。是动态哈希类名，不可靠。改用固定类名或基于文本/XPath 定位。先确保滑块消失，再等待列表元素。如果仍然超时，打印源码和截图，检查实际页面结构。考虑直接调用 Ajax 接口，彻底规避 Selenium 的渲染问题。希望这些方法能帮你解决问题！如果调试后仍有困难，欢迎提供打印的源码片段，我们一起分析。

2026-03-12 17:57:11 429

原创爬虫阶段三实战练习题一：爬取微博热搜榜（Ajax 版）复盘

键名确实不同，由各网站开发者定义。但有规律可循，多抓几个网站就会发现，SESSIONsidtokenuid等是比较通用的命名。处理方式固定：对于requests，就是构造{'键': '值'}的字典；对于selenium，就是先登录再导出。

2026-03-11 15:52:13 1238

原创爬虫学习阶段三：动态网页爬取（完整学习文档）

动态网页是指页面内容不是写死在 HTML 中的，而是通过 JavaScript 向服务器请求数据（通常是 JSON），然后动态填充到 DOM 中。这种技术称为，现在更常用 JSON 作为数据格式。静态网页 vs 动态网页静态网页：所有内容在 HTML 源代码中直接可见。动态网页：HTML 源代码中只有框架，数据是通过后续 Ajax 请求加载的。判断方法：在浏览器中右键 → “查看网页源代码”，搜索你期望的数据。如果找不到，说明是动态加载的。

2026-03-11 10:22:53 1203

原创爬虫阶段二实战练习题一：模拟登录github获取个人信息复盘

步骤你的角色做了什么对应到代码1. 侦查数据分析师打开浏览器开发者工具，监听网络请求，找到真实的登录提交地址 (/session) 和所需的参数 (无（手动操作）2. 模拟自动化脚本先用访问登录页，获取。3. 提交模拟登录者用带上用户名、密码、token，向真实地址发起登录请求。4. 保持已登录用户session对象自动保存了服务器下发的身份Cookie。session对象内部自动完成5. 获取数据消费者直接用同一个去访问个人信息页，获取数据。所以，你不仅代码写对了，更关键的是，你。

2026-03-10 16:59:16 1172

原创爬虫工程师学习路径阶段二：静态网页进阶（完整学习文档）

能够处理需要登录的网站，理解 Session 和 Cookie 机制。能够分析表单提交，模拟 POST 请求。掌握了基础的验证码识别思路。学会了伪装 Referer 等请求头。能够用正则表达式辅助提取数据。理解了数据去重和增量爬取的基本方法。反爬手段应对方法User-Agent 检查随机切换 UA 池Referer 检查添加正确的 Referer 头Cookie 验证使用 Session 自动管理IP 频率限制使用代理 IP，增加延时验证码。

2026-03-10 08:07:54 1194

原创爬虫阶段一实战练习题二：爬取当当网图书列表

当当网图书列表爬取实战任务目标：爬取当当网3个图书分类（计算机、小说、童书）各前5页数据，包含商品名称、价格、作者、出版社和评论数等信息，保存为JSON格式。技术要点： URL规律分析：不同分类对应不同ID参数，页数通过pg=2等参数控制反爬应对：需设置User-Agent请求头并添加适当延时数据提取：商品信息位于<li class="line1">等标签中价格在class="search_now_price"的span标签内作者和出版社信息

2026-03-09 16:56:19 391

原创爬虫阶段一实战练习题：爬取豆瓣电影 Top250 复盘

通过这次实战，你不仅掌握了爬虫的基本流程（请求→解析→存储），还深入了解了HTML结构、正则表达式、反爬策略等实用技能。这些知识完全可以迁移到其他网站的爬取中，是成为数据工程师/分析师的重要一步。通过爬取豆瓣TOP250电影数据，你一定积累了不少宝贵的经验和技巧。下面从多个维度帮你梳理一下可能学到的内容，既是对知识的复盘，也能为后续项目提供参考。包裹关键代码，并打印错误信息，确保爬虫不会中途崩溃。（F12）快速定位元素，是爬虫的基本功。确保文件正确关闭，是良好的编程习惯。做可视化，让爬虫成果更有趣。

2026-03-09 12:50:49 428

原创爬虫工程师入门阶段一：基础知识点完全学习文档

爬虫0基础入门学习文档

2026-03-08 16:10:54 1330

原创 V8引擎 [ 在js中函数也是一种特殊的对象，利用这一特性可以轻松实现闭包 ]

js中函数也是一种特殊的对象，闭包的理解

2025-04-01 16:27:30 732

原创 V8是怎么执行JavaScript代码的？

V8执行js代码的过程

2025-03-29 19:58:13 1025

原创 v8引擎前言[虚拟机，解释器和编译器了解]

其主要核心流程分为编译和执行两步。首先需要将JavaScript代码转换为低级中间代码或者机器能够理解的机器代码，然后再执行转换后的代码并输出执行结果

2025-03-29 13:25:40 883

原创 13.电工安全【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

13.电工安全

2025-03-07 20:43:32 302

原创 12.火灾【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

12.火灾

2025-03-07 19:49:15 300

原创 11.雷电【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

11.静电与易燃易爆

2025-03-06 22:28:42 308

原创 10.静电与易燃易爆【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

10.静电与易燃易爆

2025-03-06 16:59:01 222

原创 9.灯与照明【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

9.灯与照明

2025-03-06 12:26:45 237

原创 8.手持电动工具与电动机【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

8.手持电动工具和绝缘

2025-03-06 09:02:58 1830

原创 7.电容器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

7.电容器

2025-03-06 08:33:39 313

原创 6.熔断器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

6.熔断器

2025-03-05 22:18:11 509

原创 5.断路器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

5.断路器

2025-03-04 17:50:28 194

原创 4.继电器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

4.继电器

2025-03-04 17:34:09 172

原创 3.三个仪表（磁电式，电磁式，电动式）【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

3.三个仪表（磁电式，电磁式，电动式）

2025-03-04 17:15:30 517

原创 2.电流表和电压表【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

低压电工理论考试：2.电压表和电流表

2025-03-04 16:58:33 324

原创 js异步编程

同步代码：立即放入 JS 引擎（ JS 主线程）执行，并原地等待执行结果异步代码：先放入宿主环境（Node/浏览器），不必原地等待结果，不阻塞主线程继续执行，异步结果在将来执行。

2025-01-05 12:39:43 786

原创 javascript中if条件后不接大括号的用法【避坑】

小王在网上学习编程时，一边看视频一边自己对着敲代码，结果出现问题了，查了一下午没查出来。平时不注意细节，多次看到别人if条件语句后面没写大括号，以为写不写大括号都一样，而自己习惯写上大括号。

2025-01-02 22:51:36 750

原创腾讯云服务器centos切换jdk版本（宝塔面板操作）

例如：选择不同版本这里变成了手动选择模式改回自动选择模式

2025-01-01 20:03:36 993

原创腾讯云轻量服务器部署jenkins

Jenkins 是一款开源的自动化构建和持续集成工具，广泛应用于软件开发中，能够自动构建、测试、部署和监控项目，帮助团队提高开发效率和质量。首次访问 Jenkins 时，需要输入管理员密码，该密码可以在服务器的 /var/lib/jenkins/secrets/initialAdminPassword 文件中找到。Jenkins 启动后，默认监听在 8080 端口，可以通过浏览器访问 http://<服务器IP地址>:8080 进入 Jenkins 的 Web 界面。

2025-01-01 17:38:03 1021

qq_41686383的博客