Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

1.爬虫概念

1.1什么是爬虫?

1.2哪些语言可以实现爬虫?

1.3爬虫分类

通用爬虫,聚焦爬虫

通用爬虫

通用爬虫如何获取新网站?

检索排名

robots.txt

聚焦爬虫

根据特定需求,抓取指定的数据。

概要

2.HTTP协议

双方规定的传输形式,应用层的协议.

ftp(21)   http(80)\https(443)   ssh(22)   mysql(3306)   redis(6379)   momgo(27017)

 

2.1HTTP和HTTPS的区别

主要区别

公钥与私钥

2.2HTTP请求

请求行,若干消息头,实体内容。

请求行

get url地址附带,?之后,&连接,小于1k。

post 提交表单,数据量无限大。


消息头

X-Requested-With: ajax

 

2.3HTTP响应内容

状态行,若干消息头,实体内容

状态行

200 成功

300 重定向

400 禁止访问

500 服务器问题

请求消息头

 

3.Fiddler

抓包工具

3.1浏览器自带也有(Network)

3.2fiddler

1.配置

2.抓包

 


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值