第七章: 存储可靠性技术
传统RAID技术:
RAID:(Redundant array of independent disks)独立硬盘冗余阵列
高效的数据组织:条带化和并行访问
数据保护:奇偶校验和热备用
实现方法:硬件RAID ----应用:RAID卡(RAID 1技术 )厂商:LSI
软件RAID-----应用:LVM(Linux) 逻辑卷,带区卷(window)
RAID技术出现的初衷是把多个小容量的硬盘组合起来,
现在:数据保护相关
物理设备失效, RAID能防止数据的丢失,提高性能。
主要功能:1、数据进行条带化,实现对数据成块存取、减少寻道时间,提高数据读取速度。 条带化---分区
2、一阵列中的几块硬盘同时读取(并行访问),减少寻道时间,提高存取速度。
RAID的数据组织形式:1、条带(strip):硬盘单个或多个连续的扇区构成一个条带,数据读写的最小单元 组成分条的元素
2、分条(stipe):同一硬盘阵列中的多个硬盘驱动器上相同 “位置”(或者说是相同编号)的条带。
分条分为:宽度:指在一个分条中数据成员盘的个数
深度:指一个条带的容量大小
保护方式: 1、镜像(备份)
2、奇偶校验算法(XOR)----数据丢失可以通过这个算回来
应用:数字电子、计算机
算法:相同为假、相异为真
RAID级别:RAID0、 RAID1、 RAID3、RAID5、RAID6、RAID10、RAID50.
RAID优势: 1 多个硬盘合成一个逻辑盘组-----更大容量
2 数据分割数据块 -----------提高访问速度
3 镜像/奇偶校验------容错
RAID组硬盘大小不同,以性能最差的为准
RAID 0:(条带化RAID) ----缓存
硬盘数最少2块 将数据以512倍数的数据存入硬盘中
数据块, RAID0组的写入性能与硬盘的数量成正比。
特点: 一个单一的大容量的硬盘。 还具备快速I/O
JBOD是存储领域中一类重要的存储设备。
RAID 1------镜像 (高安全性的RAID级别)
最少二块硬盘,一块为单个硬盘容量----另一块保存的是数据的副本。
总容量 :n分之一 , (N表示硬盘)
一个RAID 1 的性能是单个硬盘的写性能
RAID 1 读取数据时,会同时读取数据盘和镜像盘,提高性能
读取性能=二个硬盘的性能之和
RAID降级,性能下降一半
RAID 3 = RAID 0 +奇偶校验盘
缺点:奇偶校验盘达到瓶顶。
总容量: n分之n-1
写惩罚:数据盘没装满,要写新数据或修改数据,先检查数据盘中有什么数据,然后存入新数据或改数据
RAID5:RAID3升级版
更安全,分布式奇偶校验
RAID5 组的读取性能,(所写的数据量和RAID组中的硬盘数量)
RAID 6
具有两种校验算法的RAID类型
需要至少N+2(N>2)个硬盘来构成阵列,一般用在数据可靠性、可用性要求极高的应用场合。
常用的RAID 6技术有:
RAID6P+Q
RAID6 DP
RAID6 使用场景:
数据非常重要,需要尽可能长的时间处于在线和可使用的状态。口
使用的硬盘容量非常大(通常超过2T) 。大容量硬盘的重建时间较长,两个硬盘都失效是会造成数据较长时间不能访问。在RAID6中,可以实现一个硬盘重构时另一个硬盘失效。一些企业希望在使用大容量硬盘后,存储阵列的供应商使用一个双重保护的RAID组。
RAID 2.0+
RAID技术发展:传统RAID ---à LUN虚拟化 --à RAID 2.0+(块虚拟化)
组建RAID的初衷:实现数据的可靠性和安全性,以及提升存储性能,单个容量硬盘都已经较大,数据硬盘组建的RAID容量更大,然后再把RAID划分成一个一个的LUN映射给服务器使用
块虚拟机的产生:传统RAID技术重构过程时间太长,也在增加了在重构过程中其他硬盘再坏掉对数据丢失造成的风险。
传统RAID组缺点:1、硬盘类型、转速、容量,必须一致
2、硬盘不超过12块
RAID2.0+(华为的块虚拟化技术):将物理空间和数据空间分散发布成分散的块,(充分发挥系统的读写能力,扩展方便,按需分配、热度排布、迁移)--华为smart软件的特征的实现基础
重构数据和存储数据可以同时进行
管理模式:底层硬盘管理和上层资源管理、以数据块为单位
对象:硬盘域(Disk Domain):一堆硬盘的组合(整个系统的硬盘)预留热备容量或统一向存储池提供存储资源。
存储池(Storage Pool):存放存储空间资源的容器—例如应用服务器
存储层级(Tire):存储池中性能类似的存储介质集合,(管理不同性能的存储介质以便为不同性能要求的应用提供不同存储空间。)
Disk Group(DG):硬盘组,由硬盘域内相同类型的多个硬盘组成的集合,
(SSD SAS NL-SAS)
一个DG只包含一种硬盘类型
DG:系统内部对象,作用故障隔离
Logical Drive (LD):硬盘磁盘,是被存储系统所管理的硬盘盒物理硬盘一一对应。
Chunk(CK):存储池内的硬盘空间切分成若干固定大小的物理空间,是组成RAID的基本单元。
CK大小:SSD、SAS:64MB NL-SAS:256MB 固定大小不能改变
Chunk Group(CKG):是由来自于同一个DG内不同硬盘的CK按照RAID算法组成的逻辑存储单元,是存储池从硬盘域上分配资源的最小单元。
一个CKG中的CK同属同一DG中的硬盘 ---具有RAID属性
Extent是在CKG基础上划分的固定大小的逻辑存储空间,大小可调,是热点数据和迁移的最小单位(数据迁移粒度),是存储池中申请空间、释放空间的最小单位。 (一个Extent归属于一个Volume或一个LUN)
Grain:在Thin LUN模式下,Extent按照固定大小被进一步划分为更细粒度的块, (Thin LUN以Grain 为粒度进行空间分配,Grain 内的LBA是连续的)
Vllume(卷):是存储系统内部管理对象。
LUN:是可以直接映射给主机读写的存储单元,是Volume对象的对外体现。
多路径技术:
多路径技术:为了解决单点故障而产生的
多路径软件的作用:
避免了同一LUN有多条路径可达导致的操作系统逻辑错误。
增强了链路的可靠性,避免了因为单个链路故障而导致的系统故障。
磁盘可靠性技术:
硬盘组成:机械部分+电气部分(主板)+软件(几十万行Firmware代码)
电气部分和软件的作用:驱动机械部分完成数据的存取。
硬盘失效分类:
产生坏道原因:1、逻辑坏道,2、物理坏道 3、磁头退化
硬盘智能化在线诊断系统: 监视---隔离---诊断—恢复
预拷贝:正常情况下,监视硬盘状态
当出现故障,将数据迁移到热备空间
重构技术:
第八章 常用存储高级技术
精简配置技术:
精简LUM(thin LUN):主机可访问的一个逻辑硬盘。 按用户实际使用容量从存储池中动态分配存储资源
特点:1、数据集合:对存储阵列来说是可映射给主机的LUN
2、完全可用:可以正常读写
3、动态分配:写时分配资源
Smart Thin 主要功能:1、支持Thin LUN容量虚拟化, Smart Thin允许主机可感知容量大于Thin LUN实际占用存储空间。
2、支持存储空间写时分配, Smart Thin允许主机在向Thin LUN写数据时才给Thin LUN 分配实际空间,写入多少分配多少
3、支持Thin LUN在线扩容。SmartThin提 供两种在线扩容方式,分别是存储池间接扩容和ThinLUN直接扩容。
4、支持Thin LUN空间回收。SmartThin提 供两种空间回收方式,分别是标准SCSI命令空间回收和零数据释放空间回收
SmartThin 基于RAID2.0+存储虚拟资源池创建Thin LUN ,即Thin LUN和传统的Thick LUN共存于同一个存储资源池中。(共同使用该存储池中的物理存储容量)
存储空间写时分配(Capacity-on-write): Thin LUN的写I/O请求会触发空间分配。 Thin Lun 的当前可分配物理空间低于阈值后会向存储池申请新的空间。
-----------------------------核心业务不能使用
读写重定向(Direct-on-time):由于采用了写时分配技术,数据的实际存储区域是不确定的,所以在对Thin LUN进行读写时需要进行重定向。
配置流程
:
存储分层技术
SmartTier(智能数据分级)raid2.0+技术之上自主研发的分级存储软件
分级存储技术主要分:手工迁移和自动迁移
手工:维护日人员手动迁移
自动:系统根据文件的访问频率,识别出热点与非热点数据,然后将热点数据迁移到高性能的存储介质中,将非热点的数据迁移到大容量,低成本的存储介质中。
存储分层:
每个存储层分别使用相同的硬盘类型和RAID策略
存储系统经历I/O监控、数据排布分析、数据迁移三个阶段实现SmartTier
容量初始分配:自动分配和制定层级分配
自动分配:顺序(性能—容量—高性能),上一层无可用空间时候才能到下一层分配
制定层级分配:优先在制定层分配存储空间,制定空间不足,才会在下一次层上分配。(性能层-容量层-高性能层)
迁移策略:不迁移,向高性能层迁移、向低性能层迁移、自动迁移
I/O监控统计分析:
原则:尽让访问频度高的数据块使用性能好的存储介质
数据迁移:速度:高速(100M/S)、中速(20M/S)、低速(10M/S), 默认低速
迁移粒度:512KB-64MB(根据业务配置,(监控业务,适合大的迁移粒度)
迁移计划:手动方式(时间段)、定时方式(预先设置好时间段)
降低TCO:降低成本
服务质量控制:
概述:
定义:SmartQOS特性是华为OceanStor V3 融合存储系统上提供的一项存储QOS功能。
工作原理:1、IO优先级调度技术 (业务的重要性)
2、IO流量控制技术:(令牌环桶机制---针对用户)
3、IO性能保障技术:(基于按权中调度---用户(业务))
技术特点:全IO路径的优先级调度、
针对不同应用场景提供不同的QOS策略
SmartQOS特征的优先级调度技术基于LUM和文件系统的优先级实现。
缓存分区技术
SmartPartition(智能缓存分区):是Ocean Stor V3 融合存储系统为应对存储融合趋势下QOS的挑战而设计的智能缓存分区技术,
核心思想:通过对系统核心资源的分区,保证关键应用的性能。
SmartPartition本质上就是一种cache分区技术, 主流存储厂商:EMC、HDS.
快照技术
LUN快照:
定义:快照是指源数据在某个时间点的一致性数据副本。快照生成后可以被主机读取,也可以作为某个时间点的数据备份。
主要特点:瞬间生产:存储系统可以在几秒内生成一个快照,获取源数据的一致性副本。
占用存储空间少:生成的快照数据并完整的物理数据拷贝,不会占用大量空间。所以即使源数据量很大,也只会占用很少的存储空间。
相关概念:
映射表:快照的实际数据所在
分类:独享和共享
(原理相同)
不同点:独享:记录写快照发生的数据变更,
共享:记录的是写源LUM发生的变更
COW技术:
快照功能原理:源卷--COW数据空间—共享映射表(数据状态标识0=Unchanged 1=Changed)
--快照卷
使用快照备份可以在以下场景中迅速恢复数据:1病毒感染, 2、人为误操作 3、恶意篡改 4、系统宕机造成的数据损坏。5、应用程序BUG造成的数据损坏。6、存储系统BUG造成的数据损坏。7.存储介质损坏(只有基于split mirror技术的快照能够恢复数据)
文件系统配额管理技术
(限制)
SmartQuota(文件系统配额):针对(使用者)进行资源控制。
作用:方便系统管理员控制资源使用者的存储资源。---限制
第九章:业务连续性方案概述:
(备份-容灾)----(运维、备份工程师)
挑战:
自然灾害、人为灾害会导致业务不能连续性
为什么要做业务连续性容灾:IT系统无容灾,业务无法恢复,经济损失巨大。
影响业务连续性的事件类型:设备故障、云数据中心、区域性灾难
定义:
业务连续性(Business Continuity):企业应对风险、自动调整和块速反映的能力,以保证企业业务的连续运行。
高可用性(High availabillity)本地故障(集群)
连续操作(Continuous Operations)运维
灾难恢复(Disaster Recovery)
三者互相关联、交叉。
RTO RPO:
国际标准:
Tier1:PTAM(Pickup Truck Access Method)卡车运送访问方式
Tier2:PTAM+热备站点
Tier3:电子链接传输
Tier4:批量/在线数据库镜像/日志传输
Tier5:软件级,两地间两阶段提交(交易完整性)
Tier6:接近0或0数据丢失,远程数据镜像保证数据的完整性和一致性
Tier7:接近0或0数据丢失,远程数据镜像,且业务环境可高自动化系统接管。
业务连续性解决方案概述
容灾级别:数据集---副本、应用级(异地与本地)、业务级---(备份工作场所)
建设容灾系统的主要挑战:在老板和技术层面找到平衡点
华为业务连续性解决方案全景图
第十章 备份方案技术及应用
概述
为什么需要备份:数据是企业的生命线、然而威胁数据的风险无处不在。
危害:(人为错误、系统软硬件故障、病毒/黑客攻击、自然灾害)
数据备份系统应该被视作IT系统的基础设施
数据备份应该每天都要做而且一定要做扎实
数据备份是数据保护的最后一道防线
备份面临的挑战: 数据类型多样化
数据类型:文件系统、操作系统、邮箱、 数据库、虚拟化、云计算
备份定义:复制一份数据类型中的数据,一旦发生灾难或误操作时,以便恢复数据,其可以正常工作。
备份目的:恢复
奔放系统组件:备份服务器、备份软件、存储设备
备份---》数据的课恢复性
容灾-à业务的连续性
备份---》数据的恢复
归档-à法规遵从
备份是容灾的基础
=============================================================
架构
备份系统的组成:备份客户端、备份网络、备份介质、备份管理
备份介质:磁盘阵列(针对数据较大的,备份时间很少)磁带库(针对数据量不大的,奔放时间充裕)虚拟带库(继承企业原备份架构和策略)光盘塔、光盘库(针对速度不高、容量不大、擦写不经常) 云存储(针对备份量小的)
一体机:
备份系统三要素:
BW(Backup Window):一个工作周期内留给备份系统进行备份的时间长度。
RPO (Recovery Point Objective):可以承受的最大数据丢失量。RTO (Recovery Time Objective):可以承受的最长停机时间。
典型备份类型:
完全备份:每天全备份。
优点:能够基于上一次的完全备份快速恢复数据,恢复窗口小。
缺点:所占用的存储空间大,每次备份耗时长, 备份窗口大。
累积增量式备份:每周一次全备份,本周其余每天备份与上次备份的差异部分。
优点:相对完全备份来说每次备份可以节约一个完全备份的存储空间,备份窗口较小,恢复窗口较小。
缺点:恢复时必须依赖上一次完全备份和本次的累积增量式备份才能完整恢复数据,恢复时间较差异增量式备份较短。
差异增量式备份:每周一次全备份,本周其余每天备份与全备份的差异部分。
优点:能够最大限度地节省存储空间, 备份窗口小。
缺点:数据恢复时必须依赖上一次完全备份和每一次的差异增量式备份才能对数据进行完整恢复,恢复时数据重构较慢,恢复时间较长。
备份方案架构:
1、本地集中备份
场景:本地DC集中备份、企业
支持的平台:操作系统中的文件应用、虚拟化平台
亮点:1、支持并行重删,节省空间
2、支持调用硬件快照,对业务零影响,秒恢复。
3、图形化GUI统一管理
2、一体化备份:
场景;SMB、分支机构小数据量的本地备份
支持的平台:操作系统中的文件应用、虚拟化平台
亮点:节省费用百分之50、图形化GUI统一管理
3、本地和远程集中备份
场景:本地DC、运营商、企业等
远程备份
支持的平台:操作系统中的文件应用、虚拟化平台
亮点: 1、支持并行重删,节省空间
2、支持调用硬件快照,对业务零影响,秒恢复。
3、图形化GUI统一管理
3、多分支集中备份
场景:本地DC、运营商、企业等
远程备份
支持的平台:操作系统中的文件应用、虚拟化平台
亮点: 1、支持并行重删,节省空间,节省费用50%
2、支持调用硬件快照,对业务零影响,秒恢复。
3、图形化GUI统一管理
典型备份网络
LAN-base:备份数据流通过现有LAN网络进行传输。
优点:充分体用现有网络,节省投资。对设备的要求较低
缺点:占用现在网络带宽、 备份性能受限。
LAN-Free:备份数据流通过SAN网络进行传输。
优点:对现有业务网络影响小、备份性能好
缺点:对网络的投资较大、对设备的要求较高。
Server-Free:备份数据流不经过生产服务器,而是通过独立网络进行传输。
优点:对业务主机几乎无影响、对现有业务网络几乎无影响、备份性能好
缺点:对网络的投资较大、对设备的要求较高
常用备份技术
多种备份特征:
端到端备份解决方案: 统一管理、全局重删、高可靠系统
易扩展、快照备份、广泛的兼容性支持
统一管理(集中管理):性能管理、监控管理、设备管理、资源管理。
重复数据删除(Deduplication)技术:消除重复数据的技术
重删技术分类:
存储决定集群、
易扩展:
1、易于向外扩展的单一备份域
(集中时管理、高灵活性、大规模、颗粒恢复)
2、使用D2D2T将数据备份到磁盘
软件复制:
优点:易于管理、支持从备份中心直接恢复备份数据
缺点:软件复制需要许可
存储复制:
优点:无需软件许可
缺点:管理复杂
快照备份:
第十一章容灾方案技术及应用
概述:
容灾需求1、三大风险:数据丢失、数据破坏、业务中断。
2、法规遵从:金融合规、等保3、安全隔离、两地三中心、高业务连续性
3、IT运维:系统容灾、有备无患、简化IT运维工作、避免突出实践冲击。
灾备系统建设必要性:灾害无处不在
HA (High Availability 高可用)定义:本地系统单个组件在故障情况下,还能继续工作
HA的关键指标是高可用性,公式:(1-(宕机时间)/( 宕机时间+运行时间))
我们常常用几个9表示可用性:
4个9 : 99.99%= 0.01% * 365★24* 60= 52.56分钟/年
5个9 : 99.999%= 0.001% * 365 = 5.265分钟/年
6个9 : 99.9999%= 0.0001% * 365 = 31秒钟/年的宕机时间
对HA来说,往往使用共享存储,这样的话,RPO =0 ;同时往往使用Active/Active(双活集群) HA模式来使得RTO几乎0,如果使用Active/Passive 模式的HA的话,则需要将RTO减少到最小限度。
容灾定义: 除去企业外,用户另外建立冗余点,当灾难发生的时候,可以使用冗余点接管企业业务使其能正常工作,
容灾和备份的区别:
备份:备份是容灾的基础(本地)----介质与介质之间的传输(复制)。恢复时间较长
容灾:离目标点距离较远,建立二套或多套功能相同的IT系统,相互之间互相监督,--------直接切换,恢复时间较短
级别
:
容灾建设等级对标:
容灾解决方案:本地(高可用)、同城(双活动数据中心、主备容灾)、异地(两地三中心、主备容灾)
架构
容灾备份解决方案框架:
容灾设计:同步、异步相结合
分级分层的灾备方案:
1、 主备容灾方案(生产中心----容灾中心)
2、两地三中心(3dc)容灾方案
3、双活容灾方案:
4、阵列复制容灾方案
5、Oracle数据库容灾
6、园区/同城应用级容灾(物理机模式)
7、云计算下的新灾备模式演进
8、云主备数据级容灾实现方式
常用容灾技术
1、主机层容灾技术(主---备)
应用级、数据库级、逻辑卷
2、网络层容灾技术:(基于SAN的数据复制技术)
快照原理:
阵列层容灾技术:主要采用阵列间复制技术实现的
SAN同步复制冗余
:
目标RPO=0 RTO 分钟级
SAN异步复制容灾:
目标RPO>3s RTO分钟级。
NAS异步复制容灾:采用ROW实现
几种容灾对比:
容灾经典方案:
第十二章:数据中心概述
会做人比会做事更有用。
1、
数据中心演变:ENIAC(40真空管)---TRADIC(50晶体管)-----模块化数据中心(80)-----云数据中心(现在)
C/S: 客户端/服务器结构—软件系统体系结构 ---需要客户端
B/S: 浏览器/服务器结构---用户界面完全通过WWW浏览器实现
模块化数据中心---集装箱数据中心20英寸(280个服务器)---可被运往全世界各地
优点:成本只有建筑以前数据中心的1%
应用:Sun Blackbox
模块化数据中心:集成了供配电、制冷、机柜、气流遏制、综合布线、动环监控等子系统,提高数据中心的整体运营效率,实现快速部署、弹性扩展和;绿色节能。
分为:微模块产品MDC和集装箱数据中心产品CDC
模块化数据中心的突出优势:1、高可靠性标准模块
数据中心定义:在一个物理空间内实现信息的集中处理、存储、传输、交换、管理。
关键设备:计算机设备、服务器设备、网络设备、存储设备等
关键物理基础设施:供电系统、制冷系统、机柜系统、消防系统、监控系统
数据中心分类:企业数据中心(Enterprise Data Center:EDC)、运营商数据中心(internet Data Center)、互联网数据中心(Service Center:SDC)
传统业务ID 云业务IDC
ERP:企业资源计划
OA:办公自动化
CRM:企业管理系统
数据中心的组成:面向业务的基础架构,是支持公司业务运营和未来成长的核心保障,
主要包含在:安全的网络架构、可靠的支持设施(机房、发电机、UPS:虚电路)空调等)、整合的服务器/应用平台、集中的存储和备份、统一的系统管理平台、面向客户服务的运维管理组织和流程
架构:
1、典型:
2、逻辑:
3、物理:
4、发展趋势:
5、数据中心基础设施组成:
6、数据中心基础设施分类:
下面我们来介绍各个系统具体包括哪些内容。
装饰系统:包括各种功能房间的天、地、墙的装饰装修。
电气系统:包括供电系统、UPS配电系统、动力配电系统、照明系统、防雷/接地系统和机柜,这里的机柜相对特殊,也有人把机柜放在装饰系统里或放在弱电系统里。
空调系统:包括精密空调系统、舒适性空调系统、新风系统和排烟/排气系统。
消防系统:包括火灾自动报警系统、火灾自动灭火系统和极早期报警系统。
弱电系统:包括综合布线系统、安防监控系统、环境监控系统和设备监控系统。
管理系统:包括监控平台、大屏幕显示、会议系统、KVM、RFID等。
云数据中心演进趋势:
传统数据中心的挑战:1、业务快速增长,机房功耗急剧上升、制冷效率低、可扩展性差 2、维护成本高(基础架构投资、应用程序投资、基础架构维护)
3、业务多、设备多
4流量剧增
5、业务驱动(快速满足业务需要、多地域统一的业务体验)
EDC(市级数据中心)、RDC、(部分区域)
SR:分为三类 基地类(SR1)、法律遵从类(SR2)、其他类(SR3)
云数据中心特点: 1、 优势: 提升IT设备利用率、简化管理、快速部署业务 更便捷地支撑企业业务发展、绿色节能。
云数据中心发展趋势:
下一代数据中心整体架构
第十三章 数据中心存储系统管理
系统初始化配置:
初始化存储系统:
SAN存储业务配置:
1、块业务配置规划流程
NAS存储业务配置:
Homedir 共享---》通过用户访问私有目录
第十四章:数据中心存储日常运维
1、管理员指南:
超级管理员:对存储设备有完全的控制权、可以创建各级别的用户
管理员:对存储设备有一定的控制权,不能管理用户、升级系统、修改系统时间、设备下电荷重启设备等操作。
只读用户:对存储设备---访问的权限。登陆存储设备后,只读用户只能进行查询操作
管理软件:
维护项目总览:首次维护、每日定期维护、每周定期维护
首次:
每日/每周定期维护
例行维护
工具巡检:
1、巡检存储设备:使用Toolkit巡检(使用DeviceManager巡检) 巡检交换机(使用SmartKit巡检、使用CLI巡检)
人工巡检: 查看并处理告警、检查业务运行状态、检查设备运行状态、检查指示灯、检查存储系统运行环境。
收集存储系统信息:
日常管理:
运维工程师的工作任务: