网络爬虫笔记（一）：request库

最新推荐文章于 2024-04-16 16:57:46 发布

weixin_43106248

最新推荐文章于 2024-04-16 16:57:46 发布

阅读量116

点赞数

分类专栏：爬虫文章标签：网络爬虫 request

本文链接：https://blog.csdn.net/weixin_43106248/article/details/100144561

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

我将我学习网络爬虫认为重要的资料放在这里，主要是给我自己看的，顺便分享给大家。
网络爬虫就是用来获取网络资源的绝佳手段，其技术基于网页标签格式的工整性。
在这里插入图片描述
我们选择什么工具？
IDLE（自带，简单）
pycharm（专业，复杂）

request库

自动爬取HTML页面，自动网络请求提交。

request安装

在这里插入图片描述
以管理员权限启动cmd
输入

pip install requests

在这里插入图片描述
打开idle
输入

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)
r.text

在这里插入图片描述
requests.request() : 构造一个请求，支撑以下各方法的基础方法
request.get() : 获取HTML网页的主要方法，对应于HTTP的GET
request.head() : 获取HTML网页头信息的方法，对应于HTTP的HEAD
request.post() : 向HTML网页提交POST请求的方法，对应于HTTP的POST
request.put() : 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
request.patch() : 向HTML网页提交局部修改请求，对应于HTTP的PATCH
request.delete() : 向HTML网页提交删除请求，对应于HTTP的DELETE

request库的get方法

在这里插入图片描述

爬取网页的通用代码框架

在这里插入图片描述

import requests
def getHTMLText(url):
	try:
		r = requests.get(url, timeout=30)
		r.raise_for_status() #如果状态不是200，引发HTTPRerror异常
		r.encoding = r.apparent_encoding
		return "产生异常"
if __name__"__main":
	url = "http://www.baidu.com"
	print(getHTMLText(url))

在这里插入图片描述

HTTP协议及Requests方法

在这里插入图片描述

Requests主要方法解析

在这里插入图片描述

weixin_43106248

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫笔记（一）：request库

我将我学习网络爬虫认为重要的资料放在这里，主要是给我自己看的，顺便分享给大家。网络爬虫就是用来获取网络资源的绝佳手段，其技术基于网页标签格式的工整性。我们选择什么工具？IDLE（自带，简单）pycharm（专业，复杂）request库自动爬取HTML页面，自动网络请求提交。...
复制链接

扫一扫

专栏目录