机器学习的认识
1.数据的‘形状’
1.1数据的‘形状’之一,大数据:在实践中,不单单是记录数据多的就是大数据,通常大数据是指数据量和数据维度均很大,数据形式很官方,如数字、文本、图像、声音等。大数据往往可能蕴含着丰富的规律和知识,所以在大数据之上应用机器学习就成了理所当然的活动了。
1.2数据的‘形状’之二,小数据:相对于大数据,在实践中还会存在不少特殊情况。例如在医学上有些疾病极为少见,只出现几百例,甚至几十例就几乎是该病的总体了,我们称之为小数据。业务中需要对这些小数据进行深入分析和探索,以便挖掘出罕见的疾病特征,并为相应的临床应对提出依据。对于这样规模的数据进行分析,如果按照记录数,依照传统机器学习观念、方法和技术,无法开展探索性的分析工作。我们认为,需求引领观念和技术,机器学习的一个发展分支应该是从规模较小的、有限的数据中探索其中的规律和知识。
1.3数据的’形状‘之三,宽数据:有一种情况是小数据高维度,小样本大信息,我们称之为宽数据。如某些基因组信息,就是数据量很少,通常只有几十例到几百例,但维度很高,通常由几百个到几千个。更极端的情况是个人大信息。在不远的将来会出现单独个体的高维数据,并需要关于解决此类机器学习的新理论和新算法。
1.4数据形状之四,深数据:有一种数据,涉及维度不是很宽,但是数据在某几个维度上跨度非常大,历史数据非常多,或者数据量的增长速度非常块,我们称之为深数据,如医学检查中24小时心电图监测、较长时段(一小时以上)的脑电监测,每小时会产生几十万至几百万条数据;这类数据我们有时也称为流数据。对这些深数据的挖掘也是非常具有挑战性的,一方面由于它的数据量非常大,另一方面也由于对这类数据进行挖掘的实时性要求较高。
医学上的个性化精确治疗,就离不开设计个人的宽数据和深数据。
本人认为:不要被机器学习的传统概念限制思维,把机器学习这个概念狭义化了,机器学习不是有限的几种工具或算法,例如聚类、分类和预测等,它是一个目的性导向的学科,目的是从数据中获取知识、规则,或其他可直接、间接用以产生效益的信息。广义上的机器学习是和概率统计、高等数学、数学分析、离散数学等数学分支无法清除割分的。我们说的机器学习是一种探索性的活动。探索性质的活动意味着过程可能会很艰辛,结果可能不可预测。所以,如果机器学习的结果达不到我们的预期,一种可能是我们的技术、方法不行,一种可能是数据没有能够真实描绘、反映事物,还有一种可能是事物中没有蕴含着我们想要的东西。
机器学习是有目的的活动。机器学习的方向是由业务需求所引领的,知识发现是一项很强的工作,不同的机器学习目的涉及的技术、方法都不同。机器学习通常分为评估性初探、计划、评估、实施、再评估、部署、维护等过程。
根据经验,我们把机器学习项目分成几个不同的层面,如决策层、设计层面、技术层面、应用层面、不同的层面需要不同的知识结构。
决策层:需要知道机器学习能干什么,
设计层面:需要行业领域相关知识和机器学习技术相关的知识;
技术层面:需要高等数学、概率学、统计学、数据库原理、分布计算、编程语言,还需要掌握具体算法的原理;
应用层面:需要知道机器学习怎样结合行业领域的需求,怎样应用机器学习的结果解决业务问题。
机器学习应用技术人员需要掌握调节算法、算法的适用性和结果的合适表现形式;
机器学习研究者需要探索新的理论,创新、改进新的算法的知识和能力。
机器学习原理和理论不是同一个事物,原理可以不借助各种公式而存在,并可能相对简单。
目前,对机器学习结果的分析还无法实现全自动化,现在更多的只是把现象(数据知识)而不是深入专业的知识展现给用户。这就需要我们应用者掌握深入的专业知识和技术知识,把机器学习自主发现的规律总结成专业知识,并应用于工作实践。
机器学习应用基础
机器学习是一种获得知识的技术,它的基础是数据,手段是各种算法,目的是获取数据中蕴含的知识。
1.1事物于维度
事物是指客观存在的一切(具体和抽象)事情和物体;
维度是指某种事物的属性,是描述事物任意特征的一个变量,不同的事物可能有不同的属性,事物的属性就是事物的本质在各个方面的表现,维度和属性可以互换。
特征维度它们是可以区别(划分)于其他事物的特殊属性,事物的特征不会体现在所有的维度上,比如指纹和DNA就是区别人类个体之间的特征维度。特征维度可以是长期的,也可以是暂时的。针对不同的事物的比较,某个事物的特征维度也可能是不同的。
在数据技术上:我们使用不同的数据类型来描述事物不同的维度,维度在数据上有四种常见的取值类型:
(1)标称类型:生物的名称/名字;
(2)有序类型:如生物的身长;
(3)区间类型:如海水的温度:摄氏温度10度至摄氏温度30等,可以计算差值;
(4)比例类型:如质量:大白鲨2000千克,抹香鲸20000千克等,可以计算倍率。
四种类型中,标称类型和有序类型是定性的,区间类型和比例类型是定量的;机器学习中连续型数据只可以是区间类型和比例类型,离散型数据可以是上面四种类型的任意一种(对区间类型和比例类型进行离散化后)。
1.2分布与关系
维度从两个方面描绘事物:维度的分布和维度的关系。正如所有维度一样,特征维度也包括分布特征和关系特征。
维度的分布有两种考量方法,一种是从维度的分布类型上来考量,可以描述事物的类型;另一种是从维度的分布范围上来考量,用于描述事物的范围。
除了维度的分布,维度的关系也是事物的特征。例如描述了正常人和某种代谢病人的血糖维度和胰岛素维度的关系曲线。维度的关系常见的表现有伴随关系(南北半球季节例子)和影响关系(冠心病患者的生理指标影响),可以看出维度的分布和关系都可以描绘事物,事物的特征也蕴含其中。发现事物维度的分布与维度的关系,就是机器学习算法的基础。
1.3 描绘与预测
事物维度的分布和关系可以用来描绘事物特征,也可以用来区分区分彼此。不同的事物之间有着不同的特征维度。
机器学习的很多技术是用来发现特性维度的,例如后面章节讲的特性选择技术和特征抽取技术。发现事物的特征维度就可以准确描绘事物、区分事物或其子类。
通过维度的分布和关系,我们可以对事物进行有效的预测。离散型数据的推测一般叫分类,也就是标称类型和有序类型。对于推测连续性维度的未来值,我们把它叫做回归预测。
1.4现象与知识
知识的获得是从思路被启发开始的。对于机器学习,数据探索之前的思路启发才是整个挖掘的开始。思路被启发是从看到特定的现象开始的,无论是传说中的苹果砸牛顿,还是现实中的知识发现,都是现象启发思路,数据中虽然存在各种现象,但是很多都难以直接观察到,机器学习技术从海量的数据中挖掘出现象并展示给使用者,让使用者从现象中寻找灵感并启发思路。机器学习的结果很大一部分是现象,或仅能称作数据知识,而不是人们需要的业务知识,还需要人脑归纳加工成专业领域的知识。
1.5规律与因果
知识的获得不是没有目的的乱撞,而是从一个现象。大多数的时候是某种现象给了我们启发,随后经过一系列的分析发现了规律。规律只是回答了what,而没有回答why,还需要发现规律背后的原因,也就是因果。从规律开始,因果和规律都是可以利用的,都可以称为广义的知识。机器学习发现的这些维度空间的分布、维度间的关系,通常都是一种规律。机器学习目前还是一种工具,观察事物维度的一种工具。机器学习可以发现人脑难以发现的维度分布和维度关系,并且以适当的方式展现出来。
算法把这些分布与关系发现并展示出来,但没有进一步说明为什么这样。也就是说,大部分的输出结果还是一种现象级规律。
机器学习应用系统
机器学习工作于业务数据之上,自然要与业务产生联系。只不过机器学习可以把一个行业的知识挖掘出来后抽象化和概括化,甚至使之有可以跨行业使用的能力。当然,更多的时候获取的知识首先是应用于本行业。
机器学习应用从上到下可分为三个大层面,每个大层面下又有若干子层面,具体结构如下:
应用层:把机器学习结果应用于实践。
算法层:提供算法、引擎和界面。
数据层:提供数据源、数据探索、数据准备。
这几个层面从低到高,是一个蕴含于事物中的知识发现和使用的过程。
数据层:包括数据来源、数据流、数据的提取于利用、数据的先验知识等话题;
算法层:主要包括分布探索、异常探索和关系探索等内容;
应用层:包括机器学习的专业应用和面向行业的应用产品两个方面。
数据层:
维度数越多,可以探索的方面就越多,可能发现的分布和关系就越多。所以大数据大’大‘,一个是记录数据巨大,一个就是维度涵盖广泛。
数据利用:机器学习可以视为辅助人脑进行信息加工的技术和过程。在一个完整的机器学习过程中,它的第一步非常重要,即先验知识与分析和数据准备。机器学习工程一定要注意行业知识,用好这些既有助于提供预分析数据质量的信息,也对评估数据分析的结果是否可用起着很大的作用。先验知识对于机器学习的用处,一个是限制了事物的变化,使得我们从更少的选项中选择,提高正确率。二是提供了更多的信息,让我们有更多的可能进行正确的选择。
算法层
算法层研究的是如何把数据中蕴含的规律找到,并展现成为人脑可以理解的形式。我们把算法分为六大类型:分布探索、关系探索、特征探索、异常探索、推测探索和趋势探索:
分布探索: 是探索数据的客观分布,机器学习的重要技术是聚类分析。
关系探索: 是探索事物与事物间的伴随关系,以及变量与变量之间的影响关系。采用机器学习的主要技术是关联规则和特性选择。
特征探索: 是探索由高维变量表达的事物的主题特征,机器学习的主要技术是特征抽取。
异常探索: 是探索由高维变量表达的事物的利群个案,机器学习的主要技术是异常侦测。
推测探索: 是根据有限变量的已知数据推测目标变量的未知值,通常由两种类型:一种目标变量为离散型,我们将这种推测探索称为分类模型,也称回归模型;另一种是目标变量为连续型,我们将这种推测探索称为预测模型,也称回顾模型。我们把用于推测目标变量的有限已知变量成为分类因子(分类模型)或预测因子(回归预测)。
趋势探索: 是按照某种次序或序列(通常是时间次序),考察并推测事物发生的变化,机器学习的主要技术是时间序列。
关联规则模型的特点: 就是从大量的随机发生的并发事件中,找到强关联的现象,使得某件事发生的前提下,另一事件的发生具有很高的概率,并且是一种具有业务意义的强规则。
面向行业的应用产品
机器学习应用主要有三种形式:通用工具、专业应用系统和定制化工程;目前定制化工程是最为多见的形式。从机器学习的用途来看,机器学习可以挖掘、探索出通用的知识,而机器学习的对象却是有着很很强的专业性和领域性,专业应用系统和定制化工程可根据数据特点做算法优化。
参考:《机器学习技术与实战:医学大数据深度应用》 (加)洪松林(Hong SongLin)编著