最新网络爬虫之Requests库入门，字节跳动视屏面试

港迪学编程

于 2024-05-14 05:11:27 发布

阅读量876

点赞数 15

分类专栏：程序员文章标签： python 学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61369360/article/details/138832157

版权

程序员专栏收录该内容

255 篇文章 0 订阅

订阅专栏

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

requests库提供了7种方法

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Requests库的两个重要对象：Request（请求）和 Response（接收）

Response对象包含服务器返回的所有信息，也包含请求的Request信息

Response对象的属性

在这里插入图片描述

理解requests编码：

在这里插入图片描述

爬取网页的通用代码框架

在这里插入图片描述

r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要

增加额外的if语句，该语句便于利用try‐except进行异常处理

import requests #导入requests库

def getHTMLtext(url):

try:

r = requests.get(url,timeout=20)

r.raise_for_status() #通用框架，获取状态码，如果是200正常，如果不是就会抛出一个异常，我们的try except 用来捕获异常。

r.encoding = r.apparent_encoding #用根据内容猜测编码来替代根据头获取编码

return r.text #打印获取

except:

return “有异常产生”

#通过函数调用即可

if name == “main”:

url=“ttp://www.baidu.com”

print(getHTMLtext(url))

可以有效的处理爬取过程中可能出现的错误网络不稳定等等

稳定，可靠

在这里插入图片描述

url正常

在这里插入图片描述

我们给一个错误的url，让它出错

在这里插入图片描述

这是就会给我们提示异常，我们自己找解决就OK。

在这里插入图片描述

在这里插入图片描述

HTTP协议及Requests库方法

在这里插入图片描述

HTTP，Hypertext Transfer Protocol，超文本传输协议，是一个基于“请求与响应”模式的、无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识，URL格式如下：

http://host[:port][path]

host: 合法的Internet主机域名或者是IP地址

port: 端口号

path: 请求资源的路径

HTTP URL的理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

HTTP协议对资源的操作

在这里插入图片描述

通过URL和命令管理资源，操作独立无状态，网络通道及服务器成为了黑盒子

在这里插入图片描述

HTTP协议和Requests库是一致的

在这里插入图片描述

Requests库的head（）方法

import requests

r = requests.head(“https://www.kuangstudy.com/course?cid=1”)

r.encoding=r.apparent_encoding

print(r.headers)

在这里插入图片描述

Requests库的post方法

post字典

import requests

payload={‘a’:‘A’,‘b’:‘B’}

r = requests.post(“https://www.kuangstudy.com/course?cid=1”,data=payload)

a=r.status_code

print(a)

print(r.text)

在这里插入图片描述

哈哈，没有成功，不过没有关系，这是小狂神的网站，有这方面的检测。不过，可以模拟浏览器。

换个url

import requests

payload={‘a’:‘A’,‘b’:‘B’}

r = requests.post(“http://httpbin.org/post”,data=payload)

a=r.status_code

print(a)

print(r.text)

在这里插入图片描述

post字符串

import requests

r = requests.post(“http://httpbin.org/post”,data=“asc”)

a=r.status_code

print(a)

print(r.text)

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

港迪学编程

关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
最新网络爬虫之Requests库入门，字节跳动视屏面试

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。