python3爬虫笔记之爬虫基础

本文介绍了Python3爬虫的基础知识,包括HTTP原理、网页基础、session和cookie以及代理的使用。讲解了URL格式规范,HTTP请求过程,响应头与请求头的关键字段,以及网页的HTML、CSS和JavaScript组成。还提到了session和cookie在爬虫中的应用,以及代理服务器的角色和分类。
摘要由CSDN通过智能技术生成

1 爬虫基础

1.1 http原理

url格式规范:在这里插入图片描述
sheme:协议。通常有http、https、ftp等
username、password:用户名和密码
hostname:主机地址
port:端口
path:路径。网络资源在服务器中的指定位置
paramenters:参数,访问资源的附加信息
query:查询,如果多个查询用&隔开
fragment:片段。资源内部的书签

http中文名为超文本传输协议,https是http的安全版,在http下加了层ssl
ssl的作用是建立安全通道,确保数据的安全性,确保数据的真实性

http请求的过程:浏览器向所在网站的服务器发送一个请求,网站服务器接收到请求后对其进行处理和解析,然后返回对应的响应,接着传回到浏览器中,响应包里包含页面的源代码内容。network监听组在访问请求网页时显示所有的网络请求和响应

在这里插入图片描述
分别是:请求的url,请求的方法,响应码,远程服务器地址和端口,判别策略
response heads和requests heads分别代表响应头和请求头,请求头包含很多信息,如浏览器标识,cookie,host等,

请求:分为四个部分,请求方式(get和post),请求网址,请求头,请求体
get:输入url回车发起一个get请求,请求的参数都在url中
post是在需要填写表单时发起,比如输入用户名和密码,数据通过表单进行传输

请求头:accept,accept-language,accept-encoding,host,cookie,referer:是从那个页面发过来的
user-agent:识别操作系统版本,浏览器版本等、content-type:互联网媒体类型
请求体:一般承载的内如是post表单数据

响应:服务器返回客户端,三个部分。响应状态码(200正常响应,404页面未找到),响应头,响应体
响应头:在这里插入图片描述
响应体:网页的html

http2.0可以去了解一下

1.2 网页基础

1、网页组成:html(骨架)、css(肌肉)、javascript(皮肤)
htm:超文本标记语言,不同类型的标签标示不同类型的元素,
css:层叠样式表,样式指的是网页中文字大小、颜色、元素间距、排列格式等,后缀为css
javascript:交互动画效果

2、网页结构
body标签的内容要在网页正文中显示,div标签定义网页中的区块,非常常用的属性。
节点之间的关系
在这里插入图片描述
3、选择器
css会为不同的节点设置不同的样式,用css选择器定位节点。
可以根据id,class,标签名选择

1.3 session 和cookie

1.4代理

代理就是代理服务器,由代理服务器请求发送给web服务端,web服务端返回的响应,由代理服务器发送给客户端,
代理的作用:突破自身的ip限制,隐藏真实ip,提高访问速度,访问内部资源
代理的分类:根据协议划分,根据匿名程度划分
常见的代理设置:网上免费,付费代理服务,adsl拨号,蜂窝代理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瓜瓜的小宝藏

给点饭吃吧呜呜呜

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值