- 博客(13)
- 收藏
- 关注
原创 算法 + 题单
文章系统介绍了常见算法与数据结构,分为四大模块:1.枚举与模拟(栈、对顶栈应用);2.数据结构(链表、栈、队列的设计与实现,重点讲解二叉堆及其应用);3.二分查找与二分答案;4.搜索算法(DFS/BFS实现及典型题目)。内容包含完整的代码实现、时间复杂度分析及力扣/洛谷例题,如文本编辑器设计、堆排序、八皇后问题、迷宫求解等,适合算法学习者系统掌握基础数据结构和经典算法。
2025-07-28 12:39:47
679
原创 【python爬虫与自动化】selenium 元素定位器
本文介绍了Selenium自动化测试中的元素定位器(Locator)机制。重点讲解了三种主要定位方式:By.ID(最快速)、By.XPATH(支持复杂路径和属性匹配)和By.CSS_SELECTOR(语法简洁)。详细说明了XPath的绝对/相对路径、通配符、属性匹配和多条件组合等高级用法,以及CSS选择器的类选择、属性匹配和层级关系等特性。文章强调相对路径和稳定属性在动态页面中的重要性,为Web自动化测试提供了实用的元素定位策略指南。
2025-07-16 11:15:36
831
原创 【python爬虫】OCR 与 图片验证码识别
本文介绍了基于PaddleOCR的数字/字母验证码识别方法。通过PaddleOCR 与 selenium 实现爬虫自动输入验证码首先。
2025-07-10 09:53:22
1337
原创 【python爬虫】爬虫基础 - requests库
本文介绍了使用Python Requests库进行HTTP请求的基本方法,重点演示了GET请求的构建流程。主要内容包括:1)如何从开发者工具中提取目标URL并拼接参数;2)设置请求头headers应对反爬机制;3)发送请求并处理响应结果,包括JSON解析和HTML文本处理。通过微软招聘页面的实际案例,详细展示了从URL构造、请求发送到数据提取的完整流程,并使用BeautifulSoup处理HTML格式的描述文本。最后提供了可复用的代码模板,包含异常
2025-07-08 09:47:55
794
原创 【python 爬虫】巨潮资讯网公告下载
本文介绍了如何从巨潮资讯网爬取公告文件的技术方案。主要内容包括:1. 使用requests模块构造POST请求获取公告元数据,分析返回的JSON结构;2. 通过selenium模拟浏览器操作点击下载按钮实现文件下载;3. 设计分页机制处理多页数据,利用数据库进行去重和元数据存储。文章详细说明了请求参数构造、响应解析、文件下载监控等关键技术点,并提供了完整的Python实现代码,包括DriverController类处理浏览器操作和CninfoAnnouncementDB类管理数据库。该方案适用于需要批量获取
2025-07-01 17:30:16
4027
原创 【python 爬虫】下载上海证交所公告文件
本文介绍了一个基于Selenium的上交所公告爬虫系统。系统采用模块化设计,主要功能包括:1) 使用Selenium模拟交互操作,处理日期选择器等复杂控件;2) 实现可靠的元素定位和高亮机制;3) 支持多级容错的文件下载功能,通过新标签页隔离下载过程;4) 引入数据库实现URL去重和数据持久化。系统通过封装核心功能为AnnouncementDownloadController类,提供了完整的公告爬取解决方案,包括浏览器初始化、日期选择、数据抓取和文件下载全流程,并配备了详细的日志记录和异常处理机制。
2025-06-26 14:57:21
2104
2
原创 证券网站爬虫失败原因
下载公告时,直接使用request构造url爬取,被反扒检测到。用selenium模拟浏览器点击,实现自动化爬取。一、上海证券交易所下载公告。
2025-06-20 14:34:12
735
原创 【python爬虫】淘宝搜索爬虫scrapy + selenium
本文介绍了使用Scrapy框架结合Selenium爬取淘宝搜索商品信息的方法。主要内容包括:1) 项目创建与基础设置;2) Selenium中间件配置,实现动态页面渲染;3) 搜索逻辑实现(关键词搜索、翻页设置);4) 商品信息提取(名称、价格、链接);5) 数据存储为Excel文件。重点解决了JavaScript渲染页面的抓取问题,详细说明了请求构造、页面解析、异常处理等关键环节的实现方法。该方案适用于需要采集淘宝商品搜索结果的场景,具有可扩展性。
2025-06-13 15:32:18
1461
1
原创 【python爬虫】百度新闻爬虫Scrapy
本文介绍了使用Scrapy框架进行网页数据爬取的基本流程。内容包括项目创建、爬虫文件生成、爬虫运行设置以及反爬机制应对方法。详细讲解了如何通过XPath提取静态数据,包括新闻条目和轮播图信息。针对JavaScript动态内容,展示了使用正则表达式+JSON解析的解决方案。文章还提供了解决406错误(反爬机制)的两种方法:手动添加Cookie和模拟登录。最后,介绍了如何通过custom_settings配置输出JSON文件。整个教程从环境搭建到实战案例,系统性地讲解了Scrapy爬虫的开发流程和常见问题
2025-06-10 16:04:44
1791
1
原创 Algorithm Notes
二分的功能:答案满足单调性的问题求解二分效率:O(log n)二分的拓展:三分,用来解决单峰函数的问题求解二分浮点数:精度控制二分斜率:WQS 二分(选学)
2024-09-05 11:49:23
1450
原创 位运算/二进制运算的运用 (待续未完)
用 temp=temp^nums[j] 实现对一个子集所有位数的异或,第 j 位进制为1时,当 i 的该为进制也为1的时候。1、计算位数:i
2024-08-24 17:59:59
487
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅