爬虫学习笔记-爬虫基础

  1. HTTPS基本原理

  2. 网页基础

  3. 爬虫基础

  4. 会话与Cookies

  5. 代理

    -HTTPS基本原理

-与服务器建立链接:URL/URI
-服务器返回对象:超文本(网页源代码)数据的主干
-网络传输超文本数据的协议:HTTP
-认证用户和服务器,加密,维护数据:SSL
-请求:

  • 请求头: Request.headers:(服务器判断是否返回数据)

  • 服务器判断依据:UA,Cookie,Host,Referer,

  • 指定服务器返回数据类型:Accept,Accept-Encoding,Accept-Language;

  • 请求体:

  • POST:表单数据 data={}

  • GET:空

-响应:

  • 响应头: (响应数据类型属性)

  • 响应时间:Date: Tue, 26 Jan 2022 05:55:55 GMT

  • 资源修改时间

  • 内容编码:content-encoding: gzip

  • 文档类型:Content-Type: text/html; charset=utf-8

  • 设置Cookies

  • Cookies过期时间:Expires/

  • 响应体:

  • 请求网页时:网页源码

  • 请求图片时:二进制数据

    网页基础

    -网页的组成

  • HTML

  • CSS

  • JavaScript

    -网页的结构

  • html标签

  • head标签:网页选项卡

  • body标签:网页正文

  • div标签:定义网页中区块

    -节点间的关系与节点树

  • 层级关系

  • 父节点与子节点

  • 互为兄弟节点

  • 节点树

  • 各个节点由于层级关系组成的结构

    -选择器(定位节点)

  • CSS选择器

  • .开头指代class 例: .title–>>选择class='title’的所有节点

  • #开头指代id 例: #2333–>>选择id='2333’的所有节点

  • space 表示 层级关系

爬虫的基本原理

-爬虫流程

  • 获取网页:

  • 对服务器发请求

  • 提取信息:

  • 利用网页结构(标签)与lxml等库

  • 存储数据

  • 本地(TXT文本,JSON文本)

  • 数据库(MYSQL,MongoDB等)

  • 远程服务器(SFTP)

  • 自动化程序:可进行异常处理,并沿着网页爬取其他网页的理想数据
    -可获取的数据

  • 有对应基于https协议的url的数据
    -Javascript渲染页面(无法直接获取完整网页页面)

  • 分析AJax接口

  • 使用Selenium,Splash 模拟渲染

会话与Cookies

**-会话:由服务器创建的记录用户状态的对象
-Cookies:服务器发送给用户的与某一会话对应的数据

-Cookies属性结构**

  • Max-Age:决定Cookies失效时间
  • HTTP字段:该Cookies信息只存于HTTP头
  • Domain:限定域名
  • Secure:Cookies是否使用其他协议(非安全协议)传输
  • Name:名字,不可改
  • Value:值
  • Path:设置域名下的可访问路径
  • Size字段:大小

代理的基本原理

-基本原理

  • 在用户与服务期间插入一个代理服务器,在服务器看来其为用户,在用户看来其相当于服务器

-代理的作用

  • 突破自身ip访问限制(使用未受限制的IP)
  • 访问某单位内部资源(使用该单位ip)
  • 隐藏真实ip(假ip)
  • 提高访问速度(缓冲区大)

-代理分类

  • 匿名程度

  • 高度匿名代理

  • 普通匿名代理

  • 透明代理

  • 间谍代理:代理服务器监视,记录用户传输的数据

  • 协议区分

  • FTP代理服务器

  • HTTP代理服务器

  • SSL/TLS代理

  • RTSP代理

  • Telnet代理

  • POP3/SMTP代理

  • SOCKS代理

    -常见代理设置

  • 网上免费代理(X)

  • 付费代理(√)

  • ADSL拨号(√)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值