python爬虫学习第一讲

互联网通信协议

  • 互联网通信的规则称为通信协议
  • 通信的步骤(简述):
    1. 找到对方的ip
    2. 通过端口将数据发送到程序上

端口

  • 每个程序都有自己独立的端口。端口是为了标识程序,目的是为了在数据传输中可以找到对应的程序。通常所说的端口叫逻辑端口。

通信协议(规则)

  • 概念 —— 指计算机通信过程中两台计算机之前进行通信所必须共同遵守的规定或规则
  • 国际组织定义了通用的通信协议 TCP/IP
  • HTTP又叫超文本传输协议,是通信协议的一种,它的端口是80
  • HTTPS = HTTP + SSL(用于web的安全传输协议) 是HTTP的安全版本,它的端口是443

网络模型

  • OSI模型 —— 7层模型
    1. 应用层
    2. 表示层
    3. 会话层
    4. 传输层
    5. 网络层
    6. 数据链路层
    7. 物理层
  • TCP/IP五层模型
    1. 应用层 —— 功能是规定应用程序的数据格式

    2. 传输层 —— 功能是建立端口到端口的通信。TCP三次握手和四次挥手

        - TCP建立连接要进行3次握手:
       	- 主机A 通过向主机B发送一个含有同步序列号的标志位的数据段给主机B,向主机B请求建立连接,通过这个数据段,主机A告诉主机B两件事:我想要和你通信;你可以用哪个序列号作为起始数据段来回应我?
       	- 主机B收到主机A的请求后,用一个带有确认应答(ACK)和同步序列号(SYN)标志位的数据段响应主机A,也告诉主机A两件事:我已经收到你的请求了,你可以传输数据了;你要用序列号作为起始数据段来回应我!
       	- 主机A收到这个数据段后,再发送一个确认应答,确认已收到主机B的数据段:“我已收到回复,我现在要开始传输实际数据了”
      
       - TCP断开连接要进行4次:
       	- 当主机A完成数据传输后,将控制位FIN置1,提出停止TCP连接的请求
       	- 主机B收到FIN后对其作出响应,确认这一方向上的TCP连接将关闭,将ACK置1
       	- 由B端再提出反方向的关闭请求,将FIN置1
       	- 主机A对主机B的请求进行确认,将ACK置1,双方向的关闭结束
      
    3. 网络层 —— 功能是引入一套新的地址用来区分不同的广播域/子网,这套地址即网络地址。网络地址的协议叫IP协议,IP协议定义的地址称为IP地址

    4. 数据链路层 —— 功能为定义电信号(一组电信号构成一个数据包叫“帧”,每帧分成报头head和数据data两部分,报头含源地址和目标地址的mac地址,并在统一网络内进行广播)的分组方式

    5. 物理层 —— 功能是基于电器特性发送高低电压信号(电信号),高电压对应数字1,低电压对应数字0。光缆、电缆、双绞线、无线电波,通常所说的网线是物理层的介质

  • TCP/IP四层模型
    1. 应用层
    2. 传输层
    3. 网络层
    4. 数据接口层

HTTP的响应和请求

  • HTTP通信由两部分组成:客户端请求消息与服务器响应消息
  • 通常使用谷歌浏览器内核的浏览器检查网站
    • General 通用信息
      • Request URL 请求的地址
      • Request Method 请求的方式
      • Status Code 状态码
    • Response Headers 服务器的响应
    • Request Headers 服务器的请求
      • Host
      • Connection: keep-alive
      • User-agent
      • Referer
      • Cookie
    • Query String Parameters 参数信息

爬虫简介

爬虫介绍

  • 简单介绍 —— 代替人去模拟浏览器进行网页操作
  • 需要爬虫的领域:
    1. 可为其他程序或公司提供数据源
      • 公司自有数据
      • 第三方平台购买数据(百度指数、数据堂)
      • 爬虫爬取数据
    2. 数据分析
    3. AI人工智能(智能家居、无人驾驶、智能语音、智能导航、人脸识别…)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值