【中项】系统集成项目管理工程师-第6章数据工程-6.1数据采集和预处理

最新推荐文章于 2024-10-04 22:42:02 发布

日记成书

最新推荐文章于 2024-10-04 22:42:02 发布

阅读量1.1k

点赞数 20

分类专栏：【中项】系统集成项目管理工程师文章标签：数据挖掘软件构建软件工程

本文链接：https://blog.csdn.net/m0_66540684/article/details/140682900

版权

【中项】系统集成项目管理工程师专栏收录该内容

62 篇文章 12 订阅

订阅专栏

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

软考同样是国家人社部和工信部组织的国家级考试，全称为“全国计算机与软件专业技术资格（水平）考试”，目前涵盖了计算机软件、计算机网络、计算机应用技术、信息系统、信息服务5大领域，总共27个科目，也是分为初、中、高三个级别。

通信专业主要需要关注“计算机网络”这个专业类别，可以考的科目有初级资格的“网络管理员”、中级的“网络工程师”。

还有5个高级资格专业，分别是“信息系统项目管理师“”系统分析师“”系统架构设计师“”网络规划设计师“”系统规划与管理师“。

软考高级证书在通信行业比较吃香，主要原因有两个：通信行业与计算机软件是相近专业，评职称满足相近专业的要求；通信高级不能以考代评，但软考高级可以，很多考生通过考软考高级来评高级职称。
————————————————

第6章数据工程

数据工程是信息系统的基础工程。数据工程围绕数据的生命周期及管理要求，研究数据从采集清洗到应用服务的全过程，为信息系统运行提供可靠的数据基础，为信息系统之间的数据共享提供安全、高效的保障，为信息系统实现互连、互通、互操作提供支撑。组织的数据工程相关能力是其建设数据要素的关键，是组织数据资源化、数据标准化、数据资产化、数据价值化的重要手段。

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

6.1数据采集和预处理

有效且高质量的数据获取是组织数据要素建设的重要活动，关系到组织数据的质量基础、容量规模、价值化开发等。广泛多元的数据采集以及必要的预处理，是支撑和保障数据获取的主要活动。

6.1.1数据采集

数据采集又称数据收集，是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化数据、半结构化数据、非结构化数据。结构化数据是以关系型数据库表管理的数据；半结构化数据是指非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、E-mail等；非结构化数据是指没有固定模式的数据，如所有格式的办公文档、文本、图片、HTML 、各类报表、图像和音频/视频信息等。

数据采集的方法可分为传感器采集、系统日志采集、网络采集和其他数据采集等。

传感器采集是通过传感器感知相应的信息，并将这些信息按一定规律变换成电信号或其他所需的信息输出，从而获取相关数据，是目前应用非常广泛的一种采集方式。数据采集传感器包括重力感应传感器、加速度传感器、光敏传感器、热敏传感器、声敏传感器、气敏传感器、流体传感器、放射线敏感传感器、味敏传感器等。

系统日志采集是通过平台系统读取、收集日志文件变化。系统日志记录系统中硬件、软件和系统运行情况及问题的信息。系统日志一般为流式数据，数据量非常庞大，常用的采集工具有Logstash 、Filebeat 、Flume 、Fluentd 、Logagent 、rsyslog 、syslog-ng等。

网络采集是指通过互联网公开采集接口或者网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式，是实现互联网数据或特定网络采集的主要方式。数据采集接口一般通过应用程序接口（API）的方式进行采集。网络爬虫（Web Crawle Web Spider）是根据一定的规则来提取所需要信息的程序。根据系统结构和实现技术，网络爬虫可分为通用网络爬虫（General Purpose WebCrawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）等类型。

除此之外，还有一些其他的数据采集方式，如通过与数据服务商合作，使用特定数据采集方式获取数据。

6.1.2数据预处理

数据的预处理一般采用数据清洗的方法来实现。数据预处理是一个去除数据集重复记录，发现并纠正数据错误，并将数据转换成符合标准的过程，从而使数据实现准确性、完整性、一致性、唯一性、适时性、有效性等。一般来说，数据预处理主要包括数据分析、数据检测和数据修正3个步骤，如图6-1所示。

（1）数据分析：是指从数据中发现控制数据的一般规则，比如字段域、业务规则等。通过对数据的分析，定义出数据清理的规则，并选择合适的算法。

（2）数据检测：是指根据预定义的清理规则及相关数据清理算法，检测数据是否正确，比如是否满足字段域、业务规则等，或检测记录是否重复。

（3）数据修正：是指手工或自动地修正检测到的错误数据或重复的记录等。

6.1.3数据预处理方法

一般而言，需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况，针对不同问题需要采用不同的数据处理方法。

1.缺失数据的预处理

数据缺失产生的原因主要分为环境原因和人为原因，需要针对不同的原因采取不同的数据预处理方法，常见的方法有删除缺失值、均值填补法、热卡填补法等。

删除缺失值是最常见的、简单有效的方法，当样本数很多的时候，并且出现缺失值的样本占整个样本的比例相对较小时，可以将有缺失值的样本直接丢弃。

均值填补法是根据缺失值的属性相关系数最大的那个属性把数据分成几个组，再分别计算每个组的均值，用均值代替缺失数值。

热卡填补法通过在数据库中找到一个与包含缺失值变量最相似的对象，然后采用相似对象的值进行数据填充。

缺失数据预处理的其他方法还有最近距离决定填补法、回归填补法、多重填补法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等。

2.异常数据的预处理

对于异常数据或有噪声的数据，如超过明确取值范围的数据、离群点数据，可以采用分箱法和回归法来进行处理。

分箱法通过考察数据的“近邻 ”（即周围的值）来平滑处理有序的数据值，这些有序的值被分布到一些“桶 ”或“箱 ”中，进行局部光滑。一般而言，宽度越大，数据预处理的效果越好。

回归法用一个函数拟合数据来光滑数据，消除噪声。线性回归涉及找出拟合两个属性（或变量）的“最佳 ”直线，使得一个属性能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个属性，并且数据拟合到一个多维面。

3.不一致数据的预处理

不一致数据是指具有逻辑错误或者数据类型不一致的数据，如年龄与生日数据不符。这一类数据的清洗可以使用人工修改，也可以借助工具来找到违反限制的数据，如知道数据的函数依赖关系，可以通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换，即定义一系列的变换纠正数据，有一些商业工具可以提供数据变换的功能，例如数据迁移工具和ETL工具等。

4.重复数据的预处理

数据本身存在的或数据清洗后可能会产生的重复值。重复值的存在会影响后续模型训练的质量，造成计算及存储浪费。去除重复值的操作一般最后进行，可以使用Excel 、VBA（VisualBasic 宏语言）、Python等工具处理。

5.格式不符数据的预处理

一般人工收集或者应用系统用户填写的数据，容易存在格式问题。一般需要将不同类型的数据内容清洗成统一类型的文件和统一格式，如将TXT 、CSV 、Excel 、HTML以及PDF清洗成统一的 Excel文件，将显示不一致的时间、日期、数值或者内容中有空格、单引号、双引号等情况进行格式的统一调整。

1 #include "stdio.h"
2 void main()
3 {
4     int time;
5     for (time=1;time<=10;time++)
6     printf("%d、喜欢的帮忙点赞收藏加关注哦！\n",time);
7 }

日记成书

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【中项】系统集成项目管理工程师-第6章 数据工程-6.1数据采集和预处理

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

第6章 数据工程

6.1数据采集和预处理

6.1.1数据采集

6.1.2数据预处理

6.1.3数据预处理方法

1.缺失数据的预处理

2.异常数据的预处理

3.不一致数据的预处理

4.重复数据的预处理

5.格式不符数据的预处理

【中项】系统集成项目管理工程师-第6章数据工程-6.1数据采集和预处理

第6章数据工程