小白聊智慧制造之十七:工业大数据是如何实现其价值的?

工业互联网是以数字化为基础,网络化为支撑,智能化为目标。通过物联网技术对工业制造过程中的人、物、环境和过程实施对象数字化,将数据通过网络实现数据的价值流动,以数据为生产要素,以数据的智能分析为基础,实现智能决策和智能控制,实现智能优化和智慧化运营,创造经济价值和社会价值。

数据是工业互联网的一种最重要的生产要素。一个工厂每天的数据以TB计算,但本质上,这些数据具有“多”、“杂”等特点,良莠不齐。不求随机样本,而是全体数据;不求精确性,而是混杂性;不求因果,但求相关。新工业革命,本质上是智能革命,而智能革命的基础是信息化,大数据是根本。没有大数据对客观事物全面、快速、真实、准确的信息反馈,任何智能设备都不可能实现真正的智能。那么,如何让这些“多”、“杂”的工业大数据发挥其价值?

一、工业大数据的数据挖掘

(一)一些基本概念

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。这其中有几个概念需要了解下:

1、OLTP和OLAP

OLTP(On-line Transaction Processing)联机事务处理,使事务应用程序仅写入所需的数据,以便尽快处理单个事务。其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

OLAP(On-line Analytical Processing)联机分析处理,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

OLTP和OLAP的区别

 

OLTP

OLAP

用户

操作人员、低层管理人员

决策人员、高级管理人员

功能

日常操作处理

分析决策

DB设计

面向应用

面向主题

数据

当前的、最新细节、二维的、分立的

历史的、多维的、集成的、统一的

存取

读/写 数十条记录

读上百万调记录

工作单位

简单的事务

复杂的查询

用户数

上千个

上百万个

DB大小

100MB-GB

100GB-TB

时间要求

具有实时性

对时间的要求不严格

主要应用

数据库

数据仓库

2、数据仓库和数据集市

数据仓库(Data Warehouse,简写DW),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库在软硬件领域、Internet 和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。

数据集市(Data Mart) ,也叫数据市场,从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。

数据仓库和数据集市区别在于范围上,前者相当于是所有的企业数据的集合,后者重点对整个数据仓库内进行了分类,迎合了专业用户群体的特殊需求。

3、数据ETL处理

数据ETL处理,即数据的抽取(Extract)、数据的清洗(Cleaning)、数字的转换(Transform)、数字的装载(Load)。在此前的《小白聊智慧制造之十三:工业APP是释放工业大数据价值的方式》已有表述,这里略过。

(二)工业大数据的数据挖掘

1、工业大数据数据挖掘流程

数据挖掘过程一般分为数据准备、数据挖掘和结果表达和解释三个部分。在数据准备阶段,需要对数据集进行选取和预处理。其中数据预处理包括数据清理、数据集成、数据归约和数据变换等。

 

数据预处理

数据清理

填充缺失值、光滑噪声、识别离群点等

数据集成

集成多个数据库

数据归约

数据集的简化表示

数据变换

规范化、数据离散化、概念分层等

2、工业大数据数据挖掘的基本算法

数据挖掘是一种获得知识的技术。其基础是数据,其手段是各种算法,其目的是获得数据中所蕴含的知识。数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它能组合各个领域的优点,从而能从数据中挖掘到其他传统方法不能发现的有用知识。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。数据挖掘的算法很多,随着科学技术的不断发展,新的算法会不断地加入。

3、数据挖掘的结果--知识

数据挖掘分为三层,一是提供数据源、数据准备的数据层,一个是提供算法、引擎和界面的算法层,一个是把数据挖掘结果应用于实践的应用层。

数据挖掘结果根据数据的结构分为描述类知识和预测类知识。

数据挖掘不是一个静态的过程,需要不断对模型重新评估,衡量,修正。在大数据时代,数据的产生和收集是基础,数据挖掘是关键。数据挖掘是大数据中最关键也最有价值的工作。通常,数据挖掘或知识发现泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。

(三)数据挖掘的4个特性

1、应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践。

2、工程性:数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。

3、集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。

4、交叉性:数据挖掘是一个交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时,一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。

二、基于工业大数据建立数据模型

上图是数字模型建立的流程图,其中关键点有几点:

  1. 确定目标
  2. 选择变量和变量重构
  3. 选择算法
  4. 测试结果

三、数据+模型=服务

随着新一代信息技术与制造业的深度融合,工业企业的运营管理,越来越依赖工业大数据。工业大数据的潜在价值也日益呈现。随着越来越多的生产设备、零部件、产品以及人力物力不断加入工业互联网,也致使工业大数据呈现出爆炸性增长的趋势。

大数据的核心和本质是应用、算法、数据和平台4个要素的有机结合,如图所示。大数据是应用驱动的,大数据来源于实践,海量数据产生于实际应用中。

数据挖掘源于实践中的实际应用需求,用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息用到实践中去,从而提供量化、合理、可行、能够产生巨大价值的信息。另外,挖掘大数据所蕴含的有用信息,需要设计和开发相应的数据挖掘和机器学习算法。算法的设计和开发要以具体的应用数据为驱动,同时也要在实际问题中得到应用和验证,而算法的实现与应用需要高效的处理平台。高效的处理平台需要有效地分析海量的数据及对多源数据进行集成,同时有力支持数据挖掘算法以及数据可视化的执行,并对数据分析的流程进行规范。总而言之,这个应用、算法、数据和平台相结合的思想是对大数据的理解和认识的一个综合与凝练,体现了大数据的本质和核心。建立在此架构上的大数据挖掘,能够有效处理大数据的复杂特征,挖掘大数据的价值。

 

四、结语

由大数据驱动的制造业转型升级,是未来制造业提升生产效率、改进产品质量、节约资源消耗、保障生产安全、优化销售服务的必经之路,通过与工业互联网、人工智能、移动互联网、云计算等技术的协同发展,工业大数据驱动的的工业互联网必将深度融入实体经济,成为数字经济时代的新引擎。

展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客
应支付0元
点击重新获取
扫码支付

支付成功即可阅读