requests模块爬取数据操作流程

一,requests模块介绍:

是一个可以模拟浏览器的请求,用于网络访问的第三方模块,其实类似的模块有很多,比如urllib,urllib2,比起urllib,requests模块的api更加便捷(本质就是封装了urllib3)
注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求

二,安装requests模块的配置

anaconda环境变量:
path环境里面的这些值,就是为了在cmd终端你可以找到一些可执行文件。
python 在path变量去找每个值,就相当于每一个目录,在里面找python.exe
配置环境变量:我们有两个需要配置的地方:
1,配置python.exe : 根目录C:\Anaconda3-----为了让系统找到python.exe
2,配置pip:我们要配置C:\Anaconda3\Scripts来找pip.exe
所以要把他放在最上面。
打开cmd输入如下代码查找python.exe 与pip的path情况:
where python
where pip

三,requests的安装

pip install requests

四,requests模块的使用方法:

1.因为请求有两类。所以requests有两个方法,get和post。
2.使用步骤:
	1.导包
		import requests
	2.确定基础url(确定带爬取url是啥)
		base_url = 'https://www.baidu.com'
	3.发起请求,获取响应
		resposne = requests.get(base_url)
3.get方法的参数
	requests.get(
			url = 请求的url,
			headers = 请求头字典,
			params=  '请求参数’,
			timeout='超时时长'
	
	)
4.res
	响应包含:状态行,响应头,空行,响应正文。
	(1)响应内容:
		字符串类型:res.text
		二进制类型(bytes):res.content
			二进制类型的作用:进行乱码问题的解决;
						print(response.content.decode('utf-8'))
							图片视频等内容的下载。
 (2)响应内容的编码
	 乱码的第一种解决方法:res.encoding
 		乱码的第二种解决方法:res.text其实是使用的res.encoding设置 编码格式来把响应内容转换字符串。如果res.text出现乱码,解决办法就是给res.encoding设置正确的编码格式。
	(3)获取响应json内容。
		res.json()
	 ( 4 ) res.status_code :获取状态码
	 ( 5 ) res.url:获取请求的url
	 ( 6 ) res.headers:获取响应头
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值