南大计算机生物信息学,机器学习与数据挖掘-南京大学计算机系.PDF

机器学习与数据挖掘-南京大学计算机系

机器学习与数据挖掘

周 志 华

南京大学计算机软件新技术国家重点实验室,南京210093

“机器学习”是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人

的学习能力以便实现人工智能,因为众所周知,没有学习能力的系统很难被认为是具有智能的。目

[1]

前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能” 。事实上,由于“经

验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使

得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。

“数据挖掘”和“知识发现”通常被相提并论,并在许多场合被认为是可以相互替代的术语。

对数据挖掘有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有

用的、最终可理解的模式的非平凡过程”[2] 。其实顾名思义,数据挖掘就是试图从海量数据中找出

有用的知识。大体上看,数据挖掘可以视为

机器学习和数据库的交叉,它主要利用机器

学习界提供的技术来分析海量数据,利用数

据库界提供的技术来管理海量数据。

因为机器学习和数据挖掘有密切的联

系,受主编之邀,本文把它们放在一起做一

个粗浅的介绍。

1 无处不在

随着计算机技术的飞速发展,人类收集数据、存储数据的能力得到了极大的提高,无论是科学

研究还是社会生活的各个领域中都积累了大量的数据,对这些数据进行分析以发掘数据中蕴含的有

用信息,成为几乎所有领域的共同需求。正是在这样的大趋势下,机器学习和数据挖掘技术的作用

日渐重要,受到了广泛的关注。

例如,网络安全是计算机界的一个热门研究领域,

特别是在入侵检测方面,不仅有很多理论成果,还出现

了不少实用系统。那么,人们如何进行入侵检测呢?首

先,人们可以通过检查服务器日志等手段来收集大量的

网络访问数据,这些数据中不仅包含正常访问模式还包

含入侵模式。然后,人们就可以利用这些数据建立一个

可以很好地把正常访问模式和入侵模式分开的模型。这

样,在今后接收到一个新的访问模式时,就可以利用这

个模型来判断这个模式是正常模式还是入侵模式,甚至

判断出具体是何种类型的入侵。显然,这里的关键问题

是如何利用以往的网络访问数据来建立可以对今后的访问模式进行分类的模型,而这正是机器学习

和数据挖掘技术的强项。

实际上,机器学习和数据挖掘技术已经开始在多媒体、计算机图形学、计算机网络乃至操作系

统、软件工程等计算机科学的众多领域中发挥作用,特别是在计算机视觉和自然语言处理领域,机

器学习和数据挖掘已经成为最流行、最热门的技术,以至于在这些领域的顶级会议上相当多的论文

都与机器学习和数据挖掘技术有关。总的来看,引入机器学习和数据挖掘技术在计算机科学的众多

分支领域中都是一个重要趋势。

机器学习和数据挖掘技术还是很多交叉学

科的重要支撑技术。例如,生物信息学是一个

新兴的交叉学科,它试图利用信息科学技术来

研究从 DNA 到基因、基因表达、蛋白质、基

因电路、细胞、生理表现等一系列环节上的现

象和规律。随着人类基因组计划的实施,以及

基因药物的美好前景,生物信息学得到了蓬勃

发展。实际上,从信息科学技术的角度来看,

生物信息学的研究是一个从“数据”到“发现”

的过程,这中间包括数据获取、数据管理、数

据分析、仿真实验等环节,而“数据分析”这

个环节正是机器学习和数据挖掘技术的舞台。

正因为机器学习和数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值