Python-网络爬虫学习笔记

最新推荐文章于 2024-04-19 20:44:08 发布

HuSmall2un2

最新推荐文章于 2024-04-19 20:44:08 发布

阅读量445

点赞数

分类专栏： Python笔记文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Drek_Hu/article/details/110110057

版权

本文介绍了Python网络爬虫的基础知识，包括HTTP协议的介绍、对资源的操作以及请求头部的设置。重点讲解了Requests库的使用，如定制请求头部来应对服务器的反爬虫机制，展示了如何构造User-Agent信息。

摘要由CSDN通过智能技术生成

本文章知识点参考《Python网络爬虫实例教程（视频讲解版）》

中国大学mooc平台嵩天老师的《Python网络爬虫与信息提取》

以及网络上一些详细的知识点

https://www.cnblogs.com/lanyinhao/p/9634742.html

目录

一、爬虫基础

1.1.1 HTTP协议的部分介绍

1.1.2 HTTP协议对资源的操作

1.1.3 请求头部

1.2 爬虫基础 -- Requests库入门

1.2.1 Requests简单介绍

1.2.2 传递URL参数

1.2.3 定制请求头部

1.2.4 爬虫基本框架

一、爬虫基础

1.1 HTTP协议

1.1.1 HTTP协议的部分介绍

HTTP：Hypertext Transfer Protocol ，超文本传输协议。
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识，URL格式：http://host [ :port ] [ path ]。
URL是通过HTTP协议存取资源的INnternet路径，一个URL对应一个数据资源
host：合法的Internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源的路径

1.1.2 HTTP协议对资源的操作

GET：请求获取URL位置的资源
HEAD：请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST：请求向URL位置的资源后附加新的数据
PUT：请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH：请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE：请求删除URL位置存储的资源

1.1.3 请求头部

部分服务器现在有反爬虫机制，单纯的使用gei方法得不到想要的信息，所以就需要构造请求头部，伪装成一个正常的浏览器进行访问。

以Chrome浏览器为例

按F12键或者单击鼠标右键选择检查打开开发者工具选择Network

然后打开一个网址或者刷新页面

右侧就会出现多条信息，我们选择第一条信息

我们就可以看到Response Headers的内容了

而在它的最下方我们就可以得到浏览器的用户代理信息（User Agent）

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36

这条信息我们后面会使用到

1.2 爬虫基础 -- Requests库入门

1.2.1 Requests简单介绍

import requests


# Requests库的主要方法
response = requests

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。