- 博客(29)
- 收藏
- 关注
原创 爬虫工程师学习路径 · 阶段五:数据存储与清洗(完整学习文档)
本阶段将带你掌握数据存储与清洗的核心技能,学会使用关系型和非关系型数据库持久化数据,并通过清洗、去重、格式化等操作提升数据质量。完成本阶段后,你将能够构建完整的数据管道,为后续的数据分析和应用打下坚实基础。MongoDB 是一种文档型数据库,数据以 BSON(类似 JSON)格式存储,非常适合爬虫抓取的半结构化数据(如房源信息、网页快照)。查询数据库,确认数据已正确插入,再次运行脚本,检查是否更新了数据(可故意修改某个电影的评分,观察更新)。在爬虫中,我们往往需要定期更新数据,避免重复插入。
2026-03-16 09:49:16
1047
原创 爬虫工程师学习路径 · 阶段四:反爬虫对抗(完整学习文档)
网站可以通过收集浏览器的各种属性(如 User-Agent、屏幕分辨率、语言、插件、Canvas 指纹等)来生成一个唯一标识,即使更换 IP 也能识别出同一浏览器。
2026-03-12 22:22:02
1600
原创 爬虫阶段三实战练习题二:使用 Selenium 模拟爬取拉勾网职位表
是拉勾网使用技术生成的动态哈希类名,每次部署或刷新页面都可能变化。硬编码这种类名,很可能在下次访问时就失效,导致一直等待超时。是动态哈希类名,不可靠。改用固定类名或基于文本/XPath 定位。先确保滑块消失,再等待列表元素。如果仍然超时,打印源码和截图,检查实际页面结构。考虑直接调用 Ajax 接口,彻底规避 Selenium 的渲染问题。希望这些方法能帮你解决问题!如果调试后仍有困难,欢迎提供打印的源码片段,我们一起分析。
2026-03-12 17:57:11
429
原创 爬虫阶段三实战练习题一:爬取微博热搜榜(Ajax 版)复盘
键名确实不同,由各网站开发者定义。但有规律可循,多抓几个网站就会发现,SESSIONsidtokenuid等是比较通用的命名。处理方式固定:对于requests,就是构造{'键': '值'}的字典;对于selenium,就是先登录再导出。
2026-03-11 15:52:13
1238
原创 爬虫学习阶段三:动态网页爬取(完整学习文档)
动态网页是指页面内容不是写死在 HTML 中的,而是通过 JavaScript 向服务器请求数据(通常是 JSON),然后动态填充到 DOM 中。这种技术称为,现在更常用 JSON 作为数据格式。静态网页 vs 动态网页静态网页:所有内容在 HTML 源代码中直接可见。动态网页:HTML 源代码中只有框架,数据是通过后续 Ajax 请求加载的。判断方法:在浏览器中右键 → “查看网页源代码”,搜索你期望的数据。如果找不到,说明是动态加载的。
2026-03-11 10:22:53
1203
原创 爬虫阶段二实战练习题一:模拟登录github获取个人信息复盘
步骤你的角色做了什么对应到代码1. 侦查数据分析师打开浏览器开发者工具,监听网络请求,找到真实的登录提交地址 (/session) 和所需的参数 (无(手动操作)2. 模拟自动化脚本先用访问登录页,获取。3. 提交模拟登录者用带上用户名、密码、token,向真实地址发起登录请求。4. 保持已登录用户session对象自动保存了服务器下发的身份Cookie。session对象内部自动完成5. 获取数据消费者直接用同一个去访问个人信息页,获取数据。所以,你不仅代码写对了,更关键的是,你。
2026-03-10 16:59:16
1172
原创 爬虫工程师学习路径阶段二:静态网页进阶(完整学习文档)
能够处理需要登录的网站,理解 Session 和 Cookie 机制。能够分析表单提交,模拟 POST 请求。掌握了基础的验证码识别思路。学会了伪装 Referer 等请求头。能够用正则表达式辅助提取数据。理解了数据去重和增量爬取的基本方法。反爬手段应对方法User-Agent 检查随机切换 UA 池Referer 检查添加正确的 Referer 头Cookie 验证使用 Session 自动管理IP 频率限制使用代理 IP,增加延时验证码。
2026-03-10 08:07:54
1194
原创 爬虫阶段一实战练习题二:爬取当当网图书列表
当当网图书列表爬取实战 任务目标:爬取当当网3个图书分类(计算机、小说、童书)各前5页数据,包含商品名称、价格、作者、出版社和评论数等信息,保存为JSON格式。 技术要点: URL规律分析:不同分类对应不同ID参数,页数通过pg=2等参数控制 反爬应对:需设置User-Agent请求头并添加适当延时 数据提取: 商品信息位于<li class="line1">等标签中 价格在class="search_now_price"的span标签内 作者和出版社信息
2026-03-09 16:56:19
391
原创 爬虫阶段一实战练习题:爬取豆瓣电影 Top250 复盘
通过这次实战,你不仅掌握了爬虫的基本流程(请求→解析→存储),还深入了解了HTML结构、正则表达式、反爬策略等实用技能。这些知识完全可以迁移到其他网站的爬取中,是成为数据工程师/分析师的重要一步。通过爬取豆瓣TOP250电影数据,你一定积累了不少宝贵的经验和技巧。下面从多个维度帮你梳理一下可能学到的内容,既是对知识的复盘,也能为后续项目提供参考。包裹关键代码,并打印错误信息,确保爬虫不会中途崩溃。(F12)快速定位元素,是爬虫的基本功。确保文件正确关闭,是良好的编程习惯。做可视化,让爬虫成果更有趣。
2026-03-09 12:50:49
428
原创 v8引擎前言[虚拟机,解释器和编译器了解]
其主要核心流程分为编译和执行两步。首先需要将JavaScript代码转换为低级中间代码或者机器能够理解的机器代码,然后再执行转换后的代码并输出执行结果
2025-03-29 13:25:40
883
原创 js异步编程
同步代码:立即放入 JS 引擎( JS 主线程)执行,并原地等待执行结果异步代码:先放入宿主环境(Node/浏览器),不必原地等待结果,不阻塞主线程继续执行,异步结果在将来执行。
2025-01-05 12:39:43
786
原创 javascript中if条件后不接大括号的用法【避坑】
小王在网上学习编程时,一边看视频一边自己对着敲代码,结果出现问题了,查了一下午没查出来。平时不注意细节,多次看到别人if条件语句后面没写大括号,以为写不写大括号都一样,而自己习惯写上大括号。
2025-01-02 22:51:36
750
原创 腾讯云轻量服务器部署jenkins
Jenkins 是一款开源的自动化构建和持续集成工具,广泛应用于软件开发中,能够自动构建、测试、部署和监控项目,帮助团队提高开发效率和质量。首次访问 Jenkins 时,需要输入管理员密码,该密码可以在服务器的 /var/lib/jenkins/secrets/initialAdminPassword 文件中找到。Jenkins 启动后,默认监听在 8080 端口,可以通过浏览器访问 http://<服务器IP地址>:8080 进入 Jenkins 的 Web 界面。
2025-01-01 17:38:03
1021
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅