Python Requests的更多设置

最新推荐文章于 2024-04-10 11:05:40 发布

Ailsa2019

最新推荐文章于 2024-04-10 11:05:40 发布

阅读量158

点赞数

文章标签： python 小程序数据分析

本文链接：https://blog.csdn.net/Ailsa2019/article/details/105278030

版权

获取网站最简单的方法

import requests
page = request.get(url)

根据应用场景，可能要加入其它参数

为防页面响应时间过长，影响后面的程序运行，可以给程序限制时间：
为防爬虫限制，可以设置headers
在我个人的应用场景中，各大网站要不随便我访问，要不封锁我的IP，并不看user-agent
为防网站注明的编码方式和实际的编码方式不一样，在获得网页后，输出网页内容前，需要处理编码方式
原理：根据网站的全部内容判断其编码方式。消耗一点计算资源，访问五花八门的网站时，有必要加此操作
程序出错时，为了便于解决问题，需要获取错误代码【status_code】

import requests

def get_page():
	data = {'user-agent':"Mozilla/5.0"}
	page = requests.get(url, headers = data, timeout = 30)
	print(page.status_code)
	page.encoding = page.apparent_encoding
	return page.text

get_page()

调试完成后，加上try…except…结构

当程序调试后，大部分的问题都已妥善处理时，可以用try…excep…t结构，防止程序因小错误、罕见的错误中断

import requests

def get_page():
	try:
		data = {'user-agent':"Mozilla/5.0"}
		page = requests.get(url, headers = data, timeout = 30)
		print(page.status_code)
		page.encoding = page.apparent_encoding
		return page.text
	except:
		pass

get_page()

Ailsa2019

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python Requests的更多设置

获取网站最简单的方法page = request.get(url).根据应用场景，可能要加入其它参数为防页面响应时间过长，影响后面的程序运行，可以给程序限制时间：为防爬虫限制，可以设置headers在我个人的应用场景中，各大网站要不随便我访问，要不封锁我的IP，并不看user-agent为防网站注明的编码方式和实际的编码方式不一样，在获得网页后，输出网页内容前，需要处理编码方式...
复制链接

扫一扫