景元元大猫猫-CSDN博客

原创算法 + 题单

文章系统介绍了常见算法与数据结构，分为四大模块：1.枚举与模拟（栈、对顶栈应用）；2.数据结构（链表、栈、队列的设计与实现，重点讲解二叉堆及其应用）；3.二分查找与二分答案；4.搜索算法（DFS/BFS实现及典型题目）。内容包含完整的代码实现、时间复杂度分析及力扣/洛谷例题，如文本编辑器设计、堆排序、八皇后问题、迷宫求解等，适合算法学习者系统掌握基础数据结构和经典算法。

2025-07-28 12:39:47 679

原创【python爬虫与自动化】selenium 元素定位器

本文介绍了Selenium自动化测试中的元素定位器（Locator）机制。重点讲解了三种主要定位方式：By.ID（最快速）、By.XPATH（支持复杂路径和属性匹配）和By.CSS_SELECTOR（语法简洁）。详细说明了XPath的绝对/相对路径、通配符、属性匹配和多条件组合等高级用法，以及CSS选择器的类选择、属性匹配和层级关系等特性。文章强调相对路径和稳定属性在动态页面中的重要性，为Web自动化测试提供了实用的元素定位策略指南。

2025-07-16 11:15:36 831

原创【python爬虫】OCR 与图片验证码识别

本文介绍了基于PaddleOCR的数字/字母验证码识别方法。通过PaddleOCR 与 selenium 实现爬虫自动输入验证码首先。

2025-07-10 09:53:22 1337

原创【python爬虫】爬虫基础 - requests库

本文介绍了使用Python Requests库进行HTTP请求的基本方法，重点演示了GET请求的构建流程。主要内容包括：1）如何从开发者工具中提取目标URL并拼接参数；2）设置请求头headers应对反爬机制；3）发送请求并处理响应结果，包括JSON解析和HTML文本处理。通过微软招聘页面的实际案例，详细展示了从URL构造、请求发送到数据提取的完整流程，并使用BeautifulSoup处理HTML格式的描述文本。最后提供了可复用的代码模板，包含异常

2025-07-08 09:47:55 794

原创【python 爬虫】巨潮资讯网公告下载

本文介绍了如何从巨潮资讯网爬取公告文件的技术方案。主要内容包括：1. 使用requests模块构造POST请求获取公告元数据，分析返回的JSON结构；2. 通过selenium模拟浏览器操作点击下载按钮实现文件下载；3. 设计分页机制处理多页数据，利用数据库进行去重和元数据存储。文章详细说明了请求参数构造、响应解析、文件下载监控等关键技术点，并提供了完整的Python实现代码，包括DriverController类处理浏览器操作和CninfoAnnouncementDB类管理数据库。该方案适用于需要批量获取

2025-07-01 17:30:16 4027

原创【python 爬虫】下载上海证交所公告文件

本文介绍了一个基于Selenium的上交所公告爬虫系统。系统采用模块化设计，主要功能包括：1) 使用Selenium模拟交互操作，处理日期选择器等复杂控件；2) 实现可靠的元素定位和高亮机制；3) 支持多级容错的文件下载功能，通过新标签页隔离下载过程；4) 引入数据库实现URL去重和数据持久化。系统通过封装核心功能为AnnouncementDownloadController类，提供了完整的公告爬取解决方案，包括浏览器初始化、日期选择、数据抓取和文件下载全流程，并配备了详细的日志记录和异常处理机制。

2025-06-26 14:57:21 2104 2

原创证券网站爬虫失败原因

下载公告时，直接使用request构造url爬取，被反扒检测到。用selenium模拟浏览器点击，实现自动化爬取。一、上海证券交易所下载公告。

2025-06-20 14:34:12 735

原创【python爬虫】淘宝搜索爬虫scrapy + selenium

本文介绍了使用Scrapy框架结合Selenium爬取淘宝搜索商品信息的方法。主要内容包括：1) 项目创建与基础设置；2) Selenium中间件配置，实现动态页面渲染；3) 搜索逻辑实现（关键词搜索、翻页设置）；4) 商品信息提取（名称、价格、链接）；5) 数据存储为Excel文件。重点解决了JavaScript渲染页面的抓取问题，详细说明了请求构造、页面解析、异常处理等关键环节的实现方法。该方案适用于需要采集淘宝商品搜索结果的场景，具有可扩展性。

2025-06-13 15:32:18 1461 1

原创【python爬虫】百度新闻爬虫Scrapy

本文介绍了使用Scrapy框架进行网页数据爬取的基本流程。内容包括项目创建、爬虫文件生成、爬虫运行设置以及反爬机制应对方法。详细讲解了如何通过XPath提取静态数据，包括新闻条目和轮播图信息。针对JavaScript动态内容，展示了使用正则表达式+JSON解析的解决方案。文章还提供了解决406错误（反爬机制）的两种方法：手动添加Cookie和模拟登录。最后，介绍了如何通过custom_settings配置输出JSON文件。整个教程从环境搭建到实战案例，系统性地讲解了Scrapy爬虫的开发流程和常见问题

2025-06-10 16:04:44 1791 1

2301_81084742的博客

原创算法 + 题单

原创【python爬虫与自动化】selenium 元素定位器

原创【python爬虫】OCR 与图片验证码识别

原创【python爬虫】爬虫基础 - requests库

原创【python 爬虫】巨潮资讯网公告下载

原创【python 爬虫】下载上海证交所公告文件

原创证券网站爬虫失败原因

原创【python爬虫】淘宝搜索爬虫scrapy + selenium

原创【python爬虫】百度新闻爬虫Scrapy

原创 Huawei Cloud API 华为云使用笔记

原创 Python foundation with FinTech (ECON)

原创 Algorithm Notes

原创位运算/二进制运算的运用（待续未完）

空空如也

空空如也