python3爬虫笔记之爬虫基础

最新推荐文章于 2023-01-25 16:21:28 发布

瓜瓜的小宝藏

最新推荐文章于 2023-01-25 16:21:28 发布

阅读量190

点赞数

分类专栏： python爬虫文章标签：爬虫 http https

本文链接：https://blog.csdn.net/weixin_41867184/article/details/125183832

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python3爬虫的基础知识，包括HTTP原理、网页基础、session和cookie以及代理的使用。讲解了URL格式规范，HTTP请求过程，响应头与请求头的关键字段，以及网页的HTML、CSS和JavaScript组成。还提到了session和cookie在爬虫中的应用，以及代理服务器的角色和分类。

摘要由CSDN通过智能技术生成

1 爬虫基础

1.1 http原理

url格式规范：在这里插入图片描述
sheme：协议。通常有http、https、ftp等
username、password：用户名和密码
hostname：主机地址
port：端口
path：路径。网络资源在服务器中的指定位置
paramenters：参数，访问资源的附加信息
query：查询，如果多个查询用&隔开
fragment：片段。资源内部的书签

http中文名为超文本传输协议，https是http的安全版，在http下加了层ssl
ssl的作用是建立安全通道，确保数据的安全性，确保数据的真实性

http请求的过程：浏览器向所在网站的服务器发送一个请求，网站服务器接收到请求后对其进行处理和解析，然后返回对应的响应，接着传回到浏览器中，响应包里包含页面的源代码内容。network监听组在访问请求网页时显示所有的网络请求和响应

在这里插入图片描述
分别是：请求的url，请求的方法，响应码，远程服务器地址和端口，判别策略
response heads和requests heads分别代表响应头和请求头，请求头包含很多信息，如浏览器标识，cookie，host等，

请求：分为四个部分，请求方式（get和post），请求网址，请求头，请求体
get：输入url回车发起一个get请求，请求的参数都在url中
post是在需要填写表单时发起，比如输入用户名和密码，数据通过表单进行传输

请求头：accept，accept-language，accept-encoding，host，cookie，referer：是从那个页面发过来的
user-agent:识别操作系统版本，浏览器版本等、content-type：互联网媒体类型
请求体：一般承载的内如是post表单数据

响应：服务器返回客户端，三个部分。响应状态码（200正常响应，404页面未找到），响应头，响应体
响应头：在这里插入图片描述
响应体：网页的html

http2.0可以去了解一下

1.2 网页基础

1、网页组成：html（骨架）、css（肌肉）、javascript（皮肤）
htm：超文本标记语言，不同类型的标签标示不同类型的元素，
css：层叠样式表，样式指的是网页中文字大小、颜色、元素间距、排列格式等，后缀为css
javascript：交互动画效果

2、网页结构
body标签的内容要在网页正文中显示，div标签定义网页中的区块，非常常用的属性。
节点之间的关系
在这里插入图片描述
3、选择器
css会为不同的节点设置不同的样式，用css选择器定位节点。
可以根据id，class，标签名选择

1.3 session 和cookie

1.4代理

代理就是代理服务器，由代理服务器请求发送给web服务端，web服务端返回的响应，由代理服务器发送给客户端，
代理的作用：突破自身的ip限制，隐藏真实ip，提高访问速度，访问内部资源
代理的分类：根据协议划分，根据匿名程度划分
常见的代理设置：网上免费，付费代理服务，adsl拨号，蜂窝代理

瓜瓜的小宝藏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python3爬虫笔记之爬虫基础

url格式规范：sheme：协议。通常有http、https、ftp等username、password：用户名和密码hostname：主机地址port：端口path：路径。网络资源在服务器中的指定位置paramenters：参数，访问资源的附加信息query：查询，如果多个查询用&隔开fragment：片段。资源内部的书签http中文名为超文本传输协议，https是http的安全版，在http下加了层sslssl的作用是建立安全通道，确保数据的安全性，确保数据的真实性http请求的过程：
复制链接

扫一扫