自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 爬虫工程师学习路径 · 阶段五:数据存储与清洗(完整学习文档)

本阶段将带你掌握数据存储与清洗的核心技能,学会使用关系型和非关系型数据库持久化数据,并通过清洗、去重、格式化等操作提升数据质量。完成本阶段后,你将能够构建完整的数据管道,为后续的数据分析和应用打下坚实基础。MongoDB 是一种文档型数据库,数据以 BSON(类似 JSON)格式存储,非常适合爬虫抓取的半结构化数据(如房源信息、网页快照)。查询数据库,确认数据已正确插入,再次运行脚本,检查是否更新了数据(可故意修改某个电影的评分,观察更新)。在爬虫中,我们往往需要定期更新数据,避免重复插入。

2026-03-16 09:49:16 1047

原创 爬虫工程师学习路径 · 阶段四:反爬虫对抗(完整学习文档)

网站可以通过收集浏览器的各种属性(如 User-Agent、屏幕分辨率、语言、插件、Canvas 指纹等)来生成一个唯一标识,即使更换 IP 也能识别出同一浏览器。

2026-03-12 22:22:02 1600

原创 爬虫阶段三实战练习题二:使用 Selenium 模拟爬取拉勾网职位表

是拉勾网使用技术生成的动态哈希类名,每次部署或刷新页面都可能变化。硬编码这种类名,很可能在下次访问时就失效,导致一直等待超时。是动态哈希类名,不可靠。改用固定类名或基于文本/XPath 定位。先确保滑块消失,再等待列表元素。如果仍然超时,打印源码和截图,检查实际页面结构。考虑直接调用 Ajax 接口,彻底规避 Selenium 的渲染问题。希望这些方法能帮你解决问题!如果调试后仍有困难,欢迎提供打印的源码片段,我们一起分析。

2026-03-12 17:57:11 429

原创 爬虫阶段三实战练习题一:爬取微博热搜榜(Ajax 版)复盘

键名确实不同,由各网站开发者定义。但有规律可循,多抓几个网站就会发现,SESSIONsidtokenuid等是比较通用的命名。处理方式固定:对于requests,就是构造{'键': '值'}的字典;对于selenium,就是先登录再导出。

2026-03-11 15:52:13 1238

原创 爬虫学习阶段三:动态网页爬取(完整学习文档)

动态网页是指页面内容不是写死在 HTML 中的,而是通过 JavaScript 向服务器请求数据(通常是 JSON),然后动态填充到 DOM 中。这种技术称为,现在更常用 JSON 作为数据格式。静态网页 vs 动态网页静态网页:所有内容在 HTML 源代码中直接可见。动态网页:HTML 源代码中只有框架,数据是通过后续 Ajax 请求加载的。判断方法:在浏览器中右键 → “查看网页源代码”,搜索你期望的数据。如果找不到,说明是动态加载的。

2026-03-11 10:22:53 1203

原创 爬虫阶段二实战练习题一:模拟登录github获取个人信息复盘

步骤你的角色做了什么对应到代码1. 侦查数据分析师打开浏览器开发者工具,监听网络请求,找到真实的登录提交地址 (/session) 和所需的参数 (无(手动操作)2. 模拟自动化脚本先用访问登录页,获取。3. 提交模拟登录者用带上用户名、密码、token,向真实地址发起登录请求。4. 保持已登录用户session对象自动保存了服务器下发的身份Cookie。session对象内部自动完成5. 获取数据消费者直接用同一个去访问个人信息页,获取数据。所以,你不仅代码写对了,更关键的是,你。

2026-03-10 16:59:16 1172

原创 爬虫工程师学习路径阶段二:静态网页进阶(完整学习文档)

能够处理需要登录的网站,理解 Session 和 Cookie 机制。能够分析表单提交,模拟 POST 请求。掌握了基础的验证码识别思路。学会了伪装 Referer 等请求头。能够用正则表达式辅助提取数据。理解了数据去重和增量爬取的基本方法。反爬手段应对方法User-Agent 检查随机切换 UA 池Referer 检查添加正确的 Referer 头Cookie 验证使用 Session 自动管理IP 频率限制使用代理 IP,增加延时验证码。

2026-03-10 08:07:54 1194

原创 爬虫阶段一实战练习题二:爬取当当网图书列表

当当网图书列表爬取实战 任务目标:爬取当当网3个图书分类(计算机、小说、童书)各前5页数据,包含商品名称、价格、作者、出版社和评论数等信息,保存为JSON格式。 技术要点: URL规律分析:不同分类对应不同ID参数,页数通过pg=2等参数控制 反爬应对:需设置User-Agent请求头并添加适当延时 数据提取: 商品信息位于<li class="line1">等标签中 价格在class="search_now_price"的span标签内 作者和出版社信息

2026-03-09 16:56:19 391

原创 爬虫阶段一实战练习题:爬取豆瓣电影 Top250 复盘

通过这次实战,你不仅掌握了爬虫的基本流程(请求→解析→存储),还深入了解了HTML结构、正则表达式、反爬策略等实用技能。这些知识完全可以迁移到其他网站的爬取中,是成为数据工程师/分析师的重要一步。通过爬取豆瓣TOP250电影数据,你一定积累了不少宝贵的经验和技巧。下面从多个维度帮你梳理一下可能学到的内容,既是对知识的复盘,也能为后续项目提供参考。包裹关键代码,并打印错误信息,确保爬虫不会中途崩溃。(F12)快速定位元素,是爬虫的基本功。确保文件正确关闭,是良好的编程习惯。做可视化,让爬虫成果更有趣。

2026-03-09 12:50:49 428

原创 爬虫工程师入门阶段一:基础知识点完全学习文档

爬虫0基础入门学习文档

2026-03-08 16:10:54 1330

原创 V8引擎 [ 在js中函数也是一种特殊的对象,利用这一特性可以轻松实现闭包 ]

js中函数也是一种特殊的对象,闭包的理解

2025-04-01 16:27:30 732

原创 V8是怎么执行JavaScript代码的?

V8执行js代码的过程

2025-03-29 19:58:13 1025

原创 v8引擎前言[虚拟机,解释器和编译器了解]

其主要核心流程分为编译和执行两步。首先需要将JavaScript代码转换为低级中间代码或者机器能够理解的机器代码,然后再执行转换后的代码并输出执行结果

2025-03-29 13:25:40 883

原创 13.电工安全【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

13.电工安全

2025-03-07 20:43:32 302

原创 12.火灾【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

12.火灾

2025-03-07 19:49:15 300

原创 11.雷电【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

11.静电与易燃易爆

2025-03-06 22:28:42 308

原创 10.静电与易燃易爆【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

10.静电与易燃易爆

2025-03-06 16:59:01 222

原创 9.灯与照明【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

9.灯与照明

2025-03-06 12:26:45 237

原创 8.手持电动工具与电动机【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

8.手持电动工具和绝缘

2025-03-06 09:02:58 1830

原创 7.电容器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

7.电容器

2025-03-06 08:33:39 313

原创 6.熔断器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

6.熔断器

2025-03-05 22:18:11 509

原创 5.断路器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

5.断路器

2025-03-04 17:50:28 194

原创 4.继电器【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

4.继电器

2025-03-04 17:34:09 172

原创 3.三个仪表(磁电式,电磁式,电动式)【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

3.三个仪表(磁电式,电磁式,电动式)

2025-03-04 17:15:30 517

原创 2.电流表和电压表【低压电工理论】【程序员35岁失业转电工】【低压电工考试技巧】

低压电工理论考试:2.电压表和电流表

2025-03-04 16:58:33 324

原创 js异步编程

同步代码:立即放入 JS 引擎( JS 主线程)执行,并原地等待执行结果异步代码:先放入宿主环境(Node/浏览器),不必原地等待结果,不阻塞主线程继续执行,异步结果在将来执行。

2025-01-05 12:39:43 786

原创 javascript中if条件后不接大括号的用法【避坑】

小王在网上学习编程时,一边看视频一边自己对着敲代码,结果出现问题了,查了一下午没查出来。平时不注意细节,多次看到别人if条件语句后面没写大括号,以为写不写大括号都一样,而自己习惯写上大括号。

2025-01-02 22:51:36 750

原创 腾讯云服务器centos切换jdk版本(宝塔面板操作)

例如:选择不同版本这里变成了手动选择模式改回自动选择模式

2025-01-01 20:03:36 993

原创 腾讯云轻量服务器部署jenkins

Jenkins 是一款开源的自动化构建和持续集成工具,广泛应用于软件开发中,能够自动构建、测试、部署和监控项目,帮助团队提高开发效率和质量。首次访问 Jenkins 时,需要输入管理员密码,该密码可以在服务器的 /var/lib/jenkins/secrets/initialAdminPassword 文件中找到。Jenkins 启动后,默认监听在 8080 端口,可以通过浏览器访问 http://<服务器IP地址>:8080 进入 Jenkins 的 Web 界面。

2025-01-01 17:38:03 1021

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除