爬虫核心基础第一讲(爬虫简介)

爬虫简介

通讯协议

通讯协议
国际组织定义了通信用协议TCP/IP
所谓协议就是指计算机通信网络中两台计算机进行通讯必须共同遵守的规则或规定。

HTTP协议又叫做超文本传输(就是一种通讯协议)
在这里插入图片描述

网络模型

网络模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https = http + ssl
https是以http以安全为目的的传输通道。简单理解https就是http的安全版

get和post方法

请求方法
GET 从指定的资源请求数据
POST 向指定的资源提交要处理的数据
PUT
DELETE

GET和POST的区别
1.get通过url提交数据,数据在url可以看到。post数据放置在实体内提交
2.get方式提交的数据最多只能是1024字节。post没有限制
3.安全问题

爬虫概念

网络爬虫或者网页蜘蛛。主要功能是下载互联网或者是局域网de各种资源。
比如html静态页面 图像文件 js代码…

代替人去模拟浏览器进行网页操作

为什么需要爬虫?
为其他的数据提供数据源。比如(搜索引擎 baidu google…) 数据分析、大数据、人工智能…

数据分析
x宝 支付数据 马X
抖x 点 划 100个视频 数据 抓取下来
alpha视频 广告
用户基数大 用户活跃度大

爬虫分类

爬虫的分类

  • 通用网络爬虫 指的是大型的搜索引擎

  • 聚焦网络爬虫 指的是根据既定的目标有选择的有目的地到互联网上获取数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值