python爬虫01

1.爬虫的概念

        网络爬虫就是模拟客户端(主要是指浏览器)发送网络请求并接收请求响应,它是一种按照一定规则,自动抓取互联网信息的程序

2.爬虫的流程

1.获取一个url

2.向url发送请求,并获取响应(需要http协议)

3.如果从响应中获取url,则继续发送请求获取响应

4.如果从响应中提取数据,则将数据进行保存

3.HTTP和HTTPS的区别

https比http更安全但是性能相对更低

http:超文本传输协议,默认端口号80

        超文本:指超过文本,不仅限于文本,还包括图片、音频、视频等文件

        传输协议:是指使用公用约定的固定格式来传递转换成字符串的超文本内容

https:http+SSL(安全套接字层),即带有安全套接字的超文本传输协议,默认端口号443

4.常见的请求头

请求头

        Host:域名

        Connection:长链接

        Upgrade-Insecure-Requests:升级为HTTPS请求

        User-Agent:用户代理,提供系统信息和浏览器信息

        Referer:页面跳转处,防盗链(图片/视频)

        Cookie:状态保持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值