数据挖掘(一)——认识爬虫

目录

爬虫概述

网络协议

HTTP协议

http和https的概念

http和https的特点

HTTP_URL

请求消息Request

请求行 - request Line

请求头-request Header

空行

请求体 - request Body

状态行

三次握手,四次挥手

三次握手 ---创建连接

四次挥手 ---断开连接

会话技术——cookie和session

概念


爬虫概述

        概念:网络爬虫也叫网络蜘蛛,特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。 更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序。

        作用:数据采集,搜索引擎,模拟操作。

        分类:通用爬虫:搜索引擎的重要组成成分。

                   聚焦爬虫:建立在通用爬虫的基础上,抓取页面当中指定的数据。


网络协议

robots协议---君子协议

        例:https://www.baidu.com/robots.txt

网络架构

  1. c/s 即 client server --- 客户端与服务端

  2. b/s 即 browser server --- 浏览器与服务端

  3. m/s 即 mobile server --- 移动端与服务端


HTTP协议

        计算机之间也是需要一种规则,保障之间信息的有效交流,这就是HTTP协议。

http和https的概念

        http:HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW: World Wide Web )服务器传输超文本到本地浏览器的传送协议。是以明文的方式在网络当中传递数据。目前互连网上90%的网络传输都是基于http协议。

        https:HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层。

http和https的特点

HTTP协议 80

  • 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。

  • 灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

  • 无连接:限制每次连接只处理一个请求。服务器处理完客户的请求并收到客户的应答后,立即断开。

HTTPS 协议 443

  • 内容加密建立一个信息安全通道,来保证数据传输的安全。

  • 身份认证确认网站的真实性。

  • 数据完整性防止内容被第三方冒充或者篡改。


HTTP_URL

        HTTP使用URI(统一资源标识符)来传输数据和建立连接。

  • 协议部分:“http:”,在HTTP后面的“//”为分隔符

  • 域名部分:“www.aspxfans.com

  • 端口部分:跟在域名后面的是端口,8080,域

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值