6.1 数据采集和预处理
6.1.1 数据采集
数据采集又称数据收集,是指根据用户需要收集相关数据的过程
采集数据类型分类:
类型 | 描述 |
---|---|
结构化数据 | 是以关系型数据库表管理的数据 |
半结构化数据 | 是指非关系模型的、有基本固定结构模式的数据 例如日志文件、XML文档、E-mail 等 |
非结构化数据 | 是指没有固定模式的数据 如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等 |
采集数据类型方法:
方法 | 描述 |
---|---|
传感器采集 | 是目前应用非常广泛的一种采集方式 |
系统日志采集 | 系统日志一般为流式数据,数据量非常庞大 |
网络采集 | 通过互联网公开采集接口或爬虫获取数据信息的方式 网络爬虫可分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型 |
其他数据采集 | 如通过与数据服务商合作,使用特定数据采集方式获取数据 |
6.1.2 数据预处理
数据的预处理一般采用数据清洗的方法来实现。
数据预处理是一个去除数据集重复记录,发现并纠正数据错误,并将数据转换成符合标准的过程从而使数据实现准确性、完整性、一致性、唯一性、适时性、有效性等。
一般来说,数据预处理主要包括数据分析、数据检测和数据修正
数据分析: 从数据中发现控制数据的一般规则,通过对数据的分析,定义出数据清理的规则
数据检测: 根据预定义的清理规则
及相关数据清理算法,
检测数据是否正确
数据修正: 是指手工或自动地修正
检测到的错误数据或重复的记录
6.1.3 数据预处理方法
进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重数据格式不符等情况,针对不同问题需要采用不同的数据处理方法:
1.缺失数据预处理
处理方式 | 描述 |
---|---|
删除缺失值 | 可以将有缺失值的样本直接丢弃 |
均值填补法 | 用均值代替缺失数值 |
热卡填补法 | 采用相似对象的值进行数据填充 |
其他方法 | 最近距离决定填补法、回归填补法、多重填补法、K-最近邻法、有序最近邻法,基于贝叶斯的方法等 |
2.异常数据的预处理
处理方法 | 描述 |
---|---|
分箱法 | 通过考察数据的“近邻”(即周围的值)来平滑处理有序的数据值, 这些有序的值被分布到一些“桶”或“箱”中,进行局部光滑。一般而言,宽度越大,数据预处理的效果越好。 |
回归法 | 一个函数拟合数据来光滑数据,消除噪声 |
3.不一致数据的预处理
不一致数据是指具有逻辑错误或者数据类型不一致的数据
这一类数据的清洗可以使用人工修改
,也可以借助工具来找到违反限制的数据
但是大部分的不一致情况都需要进行数据变换,
即定义一系列的变换纠正数据,有一些商业工具可以提供数据变换的功能,例如数据迁移工具和ETL工具等。
4.重复数据的预处理
数据本身存在的或数据清洗后可能会产生的重复值。
去除重复值的操作一般最后
进行,可以使用Excel、VBA(Visual Basic宏语言)、Pylhon等工具处理
5.格式不符数据的预处理
一般需要将不同类型的数据内容清洗成统一类型的文件和统一格式
6.2 数据存储及管理
6.2.1 数据存储
1.数据存储介质
数据存储首先要解决的是存储介质的问题。
存储介质是数据存储的载体是数据存储的基础。
存储介质并不是越贵越好、走越先进越好,要根据不同的应用环境,合理选择存储介质。
存储介质的类型主要有磁带、光盘、磁盘、内存、闪存、云存储等。
2.存储形式
一般而言,存储形式有三种:文件存储、块存储、对象存储
3.存储管理
管理方面 | 描述 |
---|---|
资源调度管理 | 资源调度管理的功能主要是添加或删除存储节点,编辑存储节点的信息 |
存储资源管理 | 存储资源管理不仅包括监控存储系统的状况、可用性、性能以及配置情况 还包括容量和配置管理以及事件报警等,从而提供优化策略 |
负载均衡管理 | 为了避免存储资源由于资源类型、服务器访问频率和时间不均衡造成浪费或形成系统瓶颈而平衡负载的技术 |
安全管理 | 防止恶意用户攻击系统或窃取数据 系统攻击大致分为两类: 一类 以扰乱服务器正常工作为目的 ,如拒绝服务(Dos)攻击、勒索病毒攻击等;另一类 以入侵或破坏服务器为目的 ,如窃取数据、修改网页等 |
6.2.2 数据归档
数据归档这一个过程是可逆的
在开展数据归档时,需注意三点:
1、一般只在业务低峰期执行
2、数据归档之后,将会删除生产数据库的数据,将会造成数据空洞
3、如果数据归档影响了线上业务,一定要及时止损
6.2.3 数据备份
1.备份结构
备份结构 | 描述 |
---|---|
DAS备份结构 | 最简单的备份结构就是将备份设备(RAID或磁带库)直接连接到备份服务器上 ,DAS备份结构往往适合数据量不大、操作系统类型单一、服务器数量有限的情况 |
基于LAN的备份结构 | 基于LAN的备份结构是一种C/s模型;在小型的网络环境中较为常见 优点是用户可以 通过LAN共享备份设备 缺点是会 占用网络资源 |
LAN-FREE备份结构 | 该结构将备份数据流和业务数据流分开 缺点是由于份数据流要经过应用服务器,因此会 影响应用服务器提供正常的服务 |
SERVER-FREE备份结构 | SERVER-FREE备份结构是LAN-FREE备份结构的改进。 它不依赖应用服务器,而是 通过第三方备份代理直接将数据从应用服务器的存储设备传送到备份设备上 |
2.备份策略
备份策略分为:完全备份、差分备份、增量备份
备份策略 | 说明 |
---|---|
完全备份 | 1.每次都对需要进行备份的数据进行全备份 2.会占用较多的服务器、网络等资源 3.对备份介质资源的消耗往往也较大 |
差分备份 | 1.只是相对上一次完全备份之后发生变化的数据 2.差分备份所需时间短,而且节省了存储空间 3.数据恢复很方便,管理员只需两份备份数据 |
增量备份 | 1.只是相对于上一次备份后改变的数据 2.有重复的备份数据,节省了备份数据存储空间,缩短了备份的时间 3. 如果其中有一个增量备份数据出现问题,那么后面的数据也就无法恢复了 4. 可靠性没有完全备份和差分备份高 |
6.2.4 数据容灾
数据备份是数据容灾的基础
从技术上看,衡量容灾系统有两个主要指标:
●RPO(Recovery Point Object,恢复点目标): 代表了当灾难发生时允许丢失的数据量
●RTO(Recovery Time Object,恢复时间目标): 代表了系统恢复的时间
数据容灾的关键技术主要包括远程镜像技术和快照技术
PS: 更多关于系统集成项目管理工程师笔记 点击专栏订阅(持续更新~~~)