海量数据处理、分析与挖掘:机遇与挑战

      2011年2月11日出版的《科学》杂志刊登专题——《数据处理》(Special Online Collection: Dealing with Data),围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》(Challenges and Opportunities)介绍,数据的搜集、维护和使用已成为科学研究的主要方面,对许多学科而言,海量数据意味着更严峻的挑战,更好地组织和使用这些数据会有助我们将巨大机遇变为现实。
 
     到2007年,人类已储存295EB(Exabyte)的信息。1EB相当于10的18次方byte,也就是10亿GB(千兆)。如果所有数据都储存在CD光盘上,堆起来的高度可直抵月球。
 
    美国南加州大学的希伯特和洛佩斯估计,全球计算机储存容量每18个月就提高一倍。这项针对1986至2007年的信息储存量增长的研究也发表在2011年2月11日出版的《科学》期刊上。
 
    据悉,2007年,有1.9ZB(zttabyte)的数据透过电视和全球定位系统(GPS)传送。1ZB等于1000EB。上述资料量相当于全世界每人每天读174份报纸。另外,2007年有65EB信息通过手机等双向通讯系统传送,等于全世界每人每天互相告知6份报纸的内容。
 
    2002年可以视作是数字时代来临的标志,当年全球数字储存量首次超越模拟数据量。而至2007年为止,人类储存的数据中有近94%是数字形态。
 
    随着计算机技术、网络技术和通信技术的快速发展,人们获取、存储和传递数据的能力日益增强。面对数据的急剧膨胀,不论是科研领域还是工业与商业领域,人们越来越关注对数据的分析处理,以获得有用的信息和知识。
 
      由于数据量过大,超出了人们掌握、理解数据的能力,因而给正确运用这些数据带来了困难。数据挖掘和知识发现是20世纪90年代兴起的一门信息处理技术,它是在数据和数据库急剧增长,远远超过人们对数据处理和理解能力的背景下产生的,也是数据库、统计学、机器学习、可视化与高性能计算技术等多学科发展融合的结果。
 
    知识发现是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是整个知识发现过程中的一个重要步骤,它运用一些算法从数据库中提取用户感兴趣的知识。由于数据挖掘对于知识发现的重要性,目前大多数知识发现的研究都集中在数据挖掘的算法和应用上,因此很多研究者往往对数据挖掘与知识发现不作严格区分,把两者等同使用。
 

    数据挖掘涉及各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型,利用算法来分析数据,并确定与所分析数据的特征最符合的模型。一般来说,数据挖掘算法由模型、偏好和搜索三部分组成。算法的目的就是找到适合于数据的模型,但必须使用一些标准来进行模型选择。所有的算法都要使用搜索与优化技术对模型进行搜索。

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值