python爬虫

最新推荐文章于 2024-04-02 17:00:56 发布

空巷丨

最新推荐文章于 2024-04-02 17:00:56 发布

阅读量224

点赞数 1

分类专栏： Crawler-Python

本文链接：https://blog.csdn.net/qq_41860162/article/details/89086423

版权

Crawler-Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

爬虫

定义

请求网站并提取数据的自动化程序

基本流程

向服务器发起请求：即发送一个Request，请求可以包含额外的headers等信息，等待服务器的响应
获取相应内容：如果服务器正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML、JSON、二进制文件（如图片、视频等类型）
解析内容：得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析。可能是JSON，可以直接转成JOSN对象进行解析，可能是二进制数据，可以保存或者进一步处理
保存内容：保存形式多样，可以保存成文本，也可以保存至数据库，或者保存成特定格式的文件。

Response和Request

HTTP Request：浏览器就发送消息给该网址所在的服务器的这个过程
HTTP Response：服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应的处理，然后把消息回传给浏览器的过程

浏览器收到服务器的Response信息后，会对信息进行处理、渲染，然后展示给用户（爬虫没有经过浏览器的处理，所以拿到的就是Response中的数据）

Request包含的内容

请求方式
- GET（主要）
- POST（主要）
- HEAD
- PUT
- DELETE
- OPTIONS

    请求方式主要有：GET/POST两种类型常用，另外还有HEAD/PUT/DELETE/OPTIONS
    GET和POST的区别就是：请求的数据GET是在url中，POST则是存放在头部
    
    GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据，而不应当被用于产生“副作用”的操作中，例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问
    
    POST:向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源，或二者皆有。
    
    HEAD：与GET方法一样，都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于，使用这个方法可以在不必传输全部内容的情况下，就可以获取其中“关于该资源的信息”（元信息或称元数据）。
    
    PUT：向指定资源位置上传其最新内容。
    
    OPTIONS：这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用'*'来代替资源名称，向Web服务器发送OPTIONS请求，可以测试服务器功能是否正常运作。
    
    DELETE：请求服务器删除Request-URI所标识的资源

请求URL：URL全称是统一资源定位符，如一个网页文档、一张图片、一个视屏等都可以用URL来唯一确定
请求头：包含请求时的头部信息
- User-Agent：访问的浏览器（不加可能会被当成爬虫程序）
- Host：请求主机地址
- Cookies：cookie用来保存登录信息
- Referrer：访问源（一些大型网站，会通过Referrer做防盗链策略）

Response包含的内容

响应状态
- 1xx消息：请求已被服务器接受，继续处理
- 2xx成功：请求已成功被服务器接受、理解、并接受
- 3xx重定向：需要后续操作才能完成这一请求
- 4xx请求错误：请求含有此法错误或者无法被执行
- 5xx服务器错误：服务器在处理某个正确请求时发生错误
响应头
- 内容类型
- 内容长度
- 服务器信息
- 设置cookies
响应体：最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等