码农小黑的日志
Java | 大模型 | 架构设计 | 工程项目管理 | 思考感悟
展开
-
【Python爬虫教程】第7篇-requests模块的cookies保存和使用
保存cookies是避免每次都登录获取权限,一遍权限是有过期时间的,不需要每次重复登录,可以将cookies保存起来,用的时候再加载。适用于多机器并发式爬取数据或者抢票等功能。原创 2024-07-15 14:40:29 · 1062 阅读 · 0 评论 -
【Python爬虫教程】第6篇-使用session发起请求
尤其是在保持登陆状态时运用的最多,在某些网站抓取,或者app抓取时,有的时强制登陆,有的是不登陆返回的数据就是假的或者说是不完整的数据,那我们不可能去做到每一次请求都要去登陆一下怎么办,就需要用到保持会话的功能了,我们可以只登陆一次,然后保持这种状态去做其他的或者更多的请求。原创 2024-07-11 16:28:16 · 877 阅读 · 1 评论 -
【Python爬虫教程】第5篇-使用BeautifulSoup查找html元素几种常用方法
汇总介绍下查询html元素的一些方式,比如通过id查找、通过xpath查找、通过css查找等方式的最佳实践。原创 2024-07-11 16:04:40 · 581 阅读 · 0 评论 -
【Python爬虫教程】第4篇-使用BeautifulSoup解析html
在前面两篇文章中介绍了如何使用reqeusts发起请求和获取返回内容,很多爬取的内容大多是html数据,这一篇我们讲如何去解析html。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航。查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。原创 2024-07-10 11:20:48 · 2152 阅读 · 0 评论 -
【Python爬虫教程】第3篇-解决使用reqeusts遇到的ProxyError异常
Python request代理错误提示“HTTPSConnectionPool, Cannot connect to proxy, no such file or directory”原创 2024-07-09 15:58:38 · 825 阅读 · 0 评论 -
【Python爬虫教程】第2篇-reqeusts是最好用的网络请求工具
reqeusts不仅用于写爬虫方便,在日常的开发中也是少不了requests的使用。如调用后端接口,上传文件,查询数据库等。原创 2024-07-09 15:32:01 · 1404 阅读 · 0 评论 -
【Python爬虫教程】第1篇-基础知识
介绍爬虫相关一些基础知识、基本原理已经用途等原创 2024-07-05 15:33:12 · 1433 阅读 · 0 评论 -
【Python爬虫教程】第0篇-写在前面
总结一下当初从0开始学Python,一步步去写Python脚本,到后来写了个大的项目。这中间不断的摸索摸索,最终也有了一点点自己的心得和经验。原创 2024-07-04 10:51:23 · 612 阅读 · 0 评论