- 博客(5)
- 收藏
- 关注
原创 Python pytesseract OCR+Selenium模拟【识别并提交文字型验证码】实现账号登录_以古诗文网为例
本文介绍了利用Python技术实现文字型验证码自动登录的方法。通过Selenium模拟浏览器操作,结合OpenCV图像处理和pytesseract光学字符识别技术,从古诗文网验证码中提取文字内容。文章详细展示了从截图预处理到验证码识别的完整流程,包括均值漂移平滑、灰度转化、二值化处理等关键步骤,最终实现自动化登录。特别说明了直接抓取验证码URL的局限性,强调必须通过页面截图方式来确保验证码一致性。该方案为处理文字验证码提供了可行思路,同时保留了人工操作的时间间隔以模拟真实用户行为。
2025-07-14 11:52:42
713
原创 Python Requests+BeautifulSoup抓取豆瓣读书Top250书单信息
本文介绍了使用BeautifulSoup爬取豆瓣读书TOP250书单数据的全过程。通过分析网页结构,定位书名、作者、出版信息等关键字段,设计爬虫程序自动抓取10页共计250本图书数据。方法包括:1)使用随机User-Agent和延迟策略规避反爬;2)解析HTML提取目标数据;3)将结果存储为CSV并转换为Excel。代码完整展示了从网页请求、数据解析到存储的完整流程,为网页数据采集提供了实用范例。
2025-07-10 16:37:19
1414
原创 Python Selenium库模拟登录百度账号【输入短信验证码】-经验分享
摘要:本文介绍了使用Selenium自动化工具模拟登录百度的完整流程。重点讲解了如何通过配置Options参数隐藏自动化特征,包括修改user-agent、禁用自动化标志等。操作步骤包括:初始化浏览器、点击登录按钮、输入账号密码、处理验证码验证等环节,并提供了完整的Python代码示例。文章还指出当前方案的局限性(需手动输入验证码),并探讨了未来实现完全自动化的可能性。该教程仅供学习交流,旨在帮助读者理解网站自动化登录的实现思路。
2025-07-02 15:49:23
516
原创 Python Selenium库实现浏览器页面滑动_以百度搜索为例 -经验分享
摘要:本文分享了使用Selenium实现浏览器页面上下滑动的完整流程。主要包括:1)通过ChromeDriver打开百度搜索"apple官方旗舰店";2)进入首个搜索结果页面,使用JavaScript实现页面从顶部到底部再返回顶部的逐屏滚动;3)切换回搜索结果页向下滑动两屏后返回首页。关键点包括:窗口句柄切换、scrollY获取滚动位置、scrollBy实现分屏滚动。代码示例详细展示了如何模拟真实用户浏览行为,并提供了防检测配置建议。适用于自动化测试和网页数据采集场景的学习参考。
2025-07-01 18:30:14
221
原创 Python Selenium库模拟登录豆瓣【账号登录+滑块验证】-经验分享
本文详细介绍了使用Python Selenium库模拟登录豆瓣的完整流程,主要包括以下步骤:1. 通过Chrome浏览器打开豆瓣网站并切换到登录iframe;2. 输入账号密码进行登录;3. 处理滑块验证环节,包括下载背景图和滑块图、利用OpenCV进行图像匹配定位缺口位置、计算滑动距离并模拟人类操作拖动滑块。文章还提供了完整的Python代码实现,涵盖浏览器参数设置、iframe切换、元素定位、图像处理和动作链模拟等关键技术点,为自动化登录豆瓣提供了可行的解决方案。
2025-07-01 13:57:36
585
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人