爬虫
文章平均质量分 89
会三十六变的猫
分享技术,共同学习
展开
-
python爬虫入门教程(二):requests库的高级用法
通过自定义HTTP适配器,你可以更改底层的行为,如连接池管理、重试策略等。这个我几乎没怎么用过,暂时先做了解吧,后面在爬虫实战中见到的话再细说。代码如下:(代码中的操作也可以用正常的循环语句加try...except...语句实现)我认为只看这些代码或者说是参数使用的例子是没有太大用处的,具体要会在实战中应用这些参数还是得多练习,见过之后就会熟悉具体的应用场景,后面我会发文章来带领大家进一步学习这门技术,感兴趣的可以来看一下。原创 2024-06-08 00:14:24 · 1634 阅读 · 1 评论 -
python爬虫入门教程(一)
urllib是Python标准库中的一个模块,用于处理网络请求。它包含多个子模块,如等,每个子模块都有其特定的功能和用途。下面我们将逐一介绍这些子模块的使用方法。请求头(Request Headers)是HTTP请求的一部分,它包含了关于一个HTTP请求的属性信息。这些属性信息定义了请求的客户端环境、请求的意图以及请求的原始服务器应使用的其他属性。一个HTTP请求通常由请求行、请求头和请求体三部分组成,其中请求头包含了多个属性,每个属性包含一个名字和一个值,两者用冒号分隔。在某瓣电影官网按下F12。原创 2024-06-05 19:29:20 · 2813 阅读 · 1 评论 -
爬虫入门教程:爬虫概述
简单来说,爬虫(Web Crawler)是一种按照一定规则,自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为,向目标网站发送请求,然后解析并提取返回的数据。这些数据可以是网页的文本内容、图片、视频等,也可以是网页的结构信息,如链接、标签等。原创 2024-06-03 23:35:24 · 2825 阅读 · 1 评论