【Python学习】Day-025 爬虫、requests基本用法

本文介绍了Python爬虫的基础知识,包括爬虫的工作流程和requests库的使用。requests是一个用于发送HTTP请求的Python库,适用于直接获取网页内容或对接数据接口。通过requests.get()方法可以获取网页响应,响应对象包含状态码、头部信息和请求内容,内容可为二进制或文本形式。了解这些基础知识对于进行网络数据抓取至关重要。
摘要由CSDN通过智能技术生成

1. 爬虫介绍

爬虫用来获取网络数据(公开的数据)
爬虫的基本流程

  • 第一步:获取网络数据(requests、selenium)
  • 第二步:解析数据-从获取到的网络数据中提取有效数据(正则、bs4、lxml)
  • 第三步:保存数据(csv、excel、数据等)

2. requests

2.1 什么是requests

  • Python中获取网络数据的第三方库(基于http或者https协议的网络请求)
  • 爬虫使用requests的两个场景:直接请求网页地址、对提供网页数据的数据接口发送请求

2.2 requests基本用法

对目标网页直接发送请求:
requests.get(网页地址) - 获取指定页面的数据返回一个响应对象

import requests
response = requests.get('https://cd.zu.ke.com/zufang')
print(response)

# 获取响应的状态码
print(response.status_code)

# 获取响应头
print(response.headers)

# 请求内容(返回的真正有用的数据)
"""
response.content        -       二进制类型的数据(图片、视频、音频等, 例如:图片下载)
response.text           -       字符串类型的数据(网页)
response.json()         -       对请求内容做完json解析后的数据(json数据接口)
"""
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值