【中项】系统集成项目管理工程师-第6章 数据工程-6.1数据采集和预处理

前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 

       软考同样是国家人社部和工信部组织的国家级考试,全称为“全国计算机与软件专业技术资格(水平)考试”,目前涵盖了计算机软件、计算机网络、计算机应用技术、信息系统、信息服务5大领域,总共27个科目,也是分为初、中、高三个级别。

       通信专业主要需要关注“计算机网络”这个专业类别,可以考的科目有初级资格的“网络管理员”、中级的“网络工程师”。

       还有5个高级资格专业,分别是“信息系统项目管理师“”系统分析师“”系统架构设计师“”网络规划设计师“”系统规划与管理师“。

       软考高级证书在通信行业比较吃香,主要原因有两个: 通信行业与计算机软件是相近专业,评职称满足相近专业的要求; 通信高级不能以考代评,但软考高级可以,很多考生通过考软考高级来评高级职称。
————————————————

                       

6 数据工程

       数据工程是信息系统的基础工程。数据工程围绕数据的生命周期及管理要求,研究数据从采集 清洗到应用服务的全过程,为信息系统运行提供可靠的数据基础,为信息系统之间的数据共享提供 安全、高效的保障,为信息系统实现互连、互通、互操作提供支撑。组织的数据工程相关能力是其 建设数据要素的关键,是组织数据资源化、数据标准化、数据资产化、数据价值化的重要手段。

目录

前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 

第6章 数据工程

6.1数据采集和预处理

6.1.1数据采集

6.1.2数据预处理

6.1.3数据预处理方法

1.缺失数据的预处理

2.异常数据的预处理

3.不一致数据的预处理

4.重复数据的预处理

5.格式不符数据的预处理


6.1数据采集和预处理

      有效且高质量的数据获取是组织数据要素建设的重要活动,关系到组织数据的质量基础、容量 规模、价值化开发等。广泛多元的数据采集以及必要的预处理,是支撑和保障数据获取的主要活 动。

6.1.1数据采集

      数据采集又称数据收集,是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化 数据、半结构化数据、非结构化数据。结构化数据是以关系型数据库表管理的数据;半结构化数据 是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail等;非结构化 数据是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML 、各类报表、图像和 音频/视频信息等。

      数据采集的方法可分为传感器采集、系统日志采集、网络采集和其他数据采集等。

      传感器采集是通过传感器感知相应的信息,并将这些信息按一定规律变换成电信号或其他所需 的信息输出,从而获取相关数据,是目前应用非常广泛的一种采集方式。数据采集传感器包括重力 感应传感器、加速度传感器、光敏传感器、热敏传感器、声敏传感器、气敏传感器、流体传感器、 放射线敏感传感器、味敏传感器等。

      系统日志采集是通过平台系统读取、收集日志文件变化。系统日志记录系统中硬件、软件和系 统运行情况及问题的信息。系统日志一般为流式数据,数据量非常庞大,常用的采集工具有Logstash Filebeat Flume Fluentd Logagent rsyslog syslog-ng等。

      网络采集是指通过互联网公开采集接口或者网络爬虫等方式从互联网或特定网络上获取大量数 据信息的方式,是实现互联网数据或特定网络采集的主要方式。数据采集接口一般通过应用程序接 口(API)的方式进行采集。网络爬虫Web Crawle  Web Spider)是根据一定的规则来提取所需要 信息的程序。根据系统结构和实现技术,网络爬虫可分为通用网络爬虫(General Purpose WebCrawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)等类型。

      除此之外,还有一些其他的数据采集方式,如通过与数据服务商合作,使用特定数据采集方式 获取数据。

6.1.2数据预处理

     数据的预处理一般采用数据清洗的方法来实现。数据预处理是一个去除数据集重复记录,发现 并纠正数据错误,并将数据转换成符合标准的过程,从而使数据实现准确性、完整性、一致性、唯 一性、适时性、有效性等。一般来说,数据预处理主要包括数据分析、数据检测和数据修正3个步 骤,如图6-1所示。

1数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等。通过对数 据的分析,定义出数据清理的规则,并选择合适的算法。

2数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确, 比如是 否满足字段域、业务规则等,或检测记录是否重复。

3数据修正:是指手工或自动地修正检测到的错误数据或重复的记录等。

6.1.3数据预处理方法

     ​​​​​​​一般而言,需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数 据格式不符等情况,针对不同问题需要采用不同的数据处理方法。

1.缺失数据的预处理

     ​​​​​​​数据缺失产生的原因主要分为环境原因和人为原因,需要针对不同的原因采取不同的数据预处 理方法,常见的方法有删除缺失值、均值填补法、热卡填补法等。

     ​​​​​​​删除缺失值是最常见的、简单有效的方法,当样本数很多的时候,并且出现缺失值的样本占整 个样本的比例相对较小时,可以将有缺失值的样本直接丢弃

     ​​​​​​​均值填补法是根据缺失值的属性相关系数最大的那个属性把数据分成几个组,再分别计算每个 组的均值,用均值代替缺失数值

     ​​​​​​​热卡填补法通过在数据库中找到一个与包含缺失值变量最相似的对象,然后采用相似对象的值 进行数据填充

     ​​​​​​​缺失数据预处理的其他方法还有最近距离决定填补法、回归填补法、多重填补法、K-最近邻 法、有序最近邻法、基于贝叶斯的方法等。

2.异常数据的预处理

     ​​​​​​​对于异常数据或有噪声的数据,如超过明确取值范围的数据、离群点数据,可以采用分箱法和 回归法来进行处理。

     ​​​​​​​分箱法通过考察数据的“近邻 ”(即周围的值)来平滑处理有序的数据值,这些有序的值被分 布到一些“桶 ”或“箱 ”中,进行局部光滑。一般而言,宽度越大,数据预处理的效果越好。

     ​​​​​​​回归法用一个函数拟合数据来光滑数据,消除噪声。线性回归涉及找出拟合两个属性(或变量)的“最佳 ”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于 两个属性,并且数据拟合到一个多维面。

3.不一致数据的预处理

     ​​​​​​​不一致数据是指具有逻辑错误或者数据类型不一致的数据,如年龄与生日数据不符。这一类数 据的清洗可以使用人工修改,也可以借助工具来找到违反限制的数据,如知道数据的函数依赖关 系,可以通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换,即定义一系列 的变换纠正数据,有一些商业工具可以提供数据变换的功能,例如数据迁移工具和ETL工具等。

4.重复数据的预处理

     ​​​​​​​数据本身存在的或数据清洗后可能会产生的重复值。重复值的存在会影响后续模型训练的质 量,造成计算及存储浪费。去除重复值的操作一般最后进行,可以使用Excel VBAVisualBasic 宏语言)、Python等工具处理。

5.格式不符数据的预处理

     ​​​​​​​一般人工收集或者应用系统用户填写的数据,容易存在格式问题。一般需要将不同类型的数据 内容清洗成统一类型的文件和统一格式,如将TXT CSV Excel HTML以及PDF清洗成统一的 Excel文件,将显示不一致的时间、 日期、数值或者内容中有空格、单引号、双引号等情况进行格 式的统一调整。

1 #include "stdio.h"
2 void main()
3 {
4     int time;
5     for (time=1;time<=10;time++)
6     printf("%d、喜欢的帮忙点赞收藏加关注哦!\n",time);
7 }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

日记成书

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值