爬虫基础篇—之理论篇

1.网络爬虫又称网络蜘蛛、网络机器人是一种按照一定的规则,自动抓取万维网信息的程序或脚本

2.搜索引擎就是通用网络爬虫,如:google、百度(通用爬虫) 通用爬虫具有一定的局限性
3.网络爬虫类型:通用网络爬虫聚集网络爬虫分布式网络爬
4.爬虫主要步骤:

  • 1.对爬取目标的 url 定义

  • 2.对网页数据分析与协议获取对应 HTML

  • 3.对页面进行提取 HTML 页面有价值的数据
    在这里插入图片描述

  1. 通用爬虫需要遵守一定规则(nofollow 协议或 Robots 协议),全称是网络爬虫排除标准
  2. 通用爬虫只能抓取 HTML、PDF、word、wps、XLP、PPT、TXflash、音频、脚本程序
  3. HTTP 协议(Hyper Text Transfer Protocl,超文本传输协议)是面的规则
  4. HTTPS 协议(Hypertext Transfer Protocl oVer Secure Socket Laye层(安全套接层)主要用于安全传输协议,在网络传输层进行加密
  • HTTP 的端口号:80
  • HTTPS 的端口号:443
  1. HTTP 请求与响应:浏览器发送请求等待服务器响应并返回数流程图 浏览器 发送请求数据 响应并返回数据
    在这里插入图片描述
  2. 统一资源定位符 URL:如 http://www.baidu.com:8080/a
    在这里插入图片描述

11.客户端 HTTP 请求:

  • 浏览器发送一个 HTTP 请求到服务器
  • 请求格式: 请求行、请求头、空行.请求数据
  • GET: http:// www.baidu.com/HTTP/1.1
  • Host::www.baidu.comUser-Aget: Mozilla/chrome
  • Cookie:

12.HTTP 请求主要分为 get 和 postGet 请求:

  • Get请求:是从服务器上获取页面信息
  • Post 请求:是向服务器提交数据并获取页面信息
  • Get 请求参数都显示在 URL 上,服务器根据请求 URL 的参数产生响的一部分
  • Post 请求参数在请求体中,消息长度没有限制而且隐式方式进行在 URL 中,而是在请求体中因此 Get 请求方式不安全,而 Post 请求方式相对来说比较安全
  1. 请求报头
  • Host(主机和端口号)
  • UPgrade-lnsecure-Reuqusts(升级为 HTTPS 请求)
  • User-agent(浏览器名称)
  • Accept(传输文件类型)
  • Referer(页面跳转来源)
  • Accept-Encoding(文件编解码格式)
  • Accept-Language(语言类型)
  • Accept-charset(字符编码)
  • CookieContent-Type(Post 数据类型)
  • 服务端 HTTP 响应
  1. 响应报头
  • Cache-Control:must-revalidate,no-cache,Private
  • Connection:Keep-alive
  • Content-Encoding:gzip
  • Content-Type:text/html;charset = utf-8
  • Date:sun,21 sep 2017.01:06.21 GMT
    服务器端发送资源时的时间,不同时区在相互请求资源时间混乱,http 协议中发送时间都
    是 GMT
  • Server : Tengine/1.4.6
    服务器和相对应的版本,只是告诉浏览器服务器的信息
  • Transfer-Encoding:chunked
  1. 响应状态码:
  • 200:访问成功正常
  • 404:访问失败,没有找到请求信息
  • 500:服务器端出现错误,请求未完成
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值