海量数据处理、分析与挖掘：机遇与挑战

最新推荐文章于 2022-09-23 16:37:36 发布

linglingbaby

最新推荐文章于 2022-09-23 16:37:36 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘算法数据库出版 byte 通讯

数据挖掘专栏收录该内容

24 篇文章 0 订阅

订阅专栏

2011年2月11日出版的《科学》杂志刊登专题——《数据处理》（Special Online Collection: Dealing with Data），围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》（Challenges and Opportunities）介绍，数据的搜集、维护和使用已成为科学研究的主要方面，对许多学科而言，海量数据意味着更严峻的挑战，更好地组织和使用这些数据会有助我们将巨大机遇变为现实。

到2007年，人类已储存295EB(Exabyte)的信息。1EB相当于10的18次方byte，也就是10亿GB(千兆)。如果所有数据都储存在CD光盘上，堆起来的高度可直抵月球。

美国南加州大学的希伯特和洛佩斯估计，全球计算机储存容量每18个月就提高一倍。这项针对1986至2007年的信息储存量增长的研究也发表在2011年2月11日出版的《科学》期刊上。

据悉，2007年，有1.9ZB(zttabyte)的数据透过电视和全球定位系统(GPS)传送。1ZB等于1000EB。上述资料量相当于全世界每人每天读174份报纸。另外，2007年有65EB信息通过手机等双向通讯系统传送，等于全世界每人每天互相告知6份报纸的内容。

2002年可以视作是数字时代来临的标志，当年全球数字储存量首次超越模拟数据量。而至2007年为止，人类储存的数据中有近94%是数字形态。

随着计算机技术、网络技术和通信技术的快速发展，人们获取、存储和传递数据的能力日益增强。面对数据的急剧膨胀，不论是科研领域还是工业与商业领域，人们越来越关注对数据的分析处理，以获得有用的信息和知识。

由于数据量过大，超出了人们掌握、理解数据的能力，因而给正确运用这些数据带来了困难。数据挖掘和知识发现是20世纪90年代兴起的一门信息处理技术，它是在数据和数据库急剧增长，远远超过人们对数据处理和理解能力的背景下产生的，也是数据库、统计学、机器学习、可视化与高性能计算技术等多学科发展融合的结果。

知识发现是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是整个知识发现过程中的一个重要步骤，它运用一些算法从数据库中提取用户感兴趣的知识。由于数据挖掘对于知识发现的重要性，目前大多数知识发现的研究都集中在数据挖掘的算法和应用上，因此很多研究者往往对数据挖掘与知识发现不作严格区分，把两者等同使用。

数据挖掘涉及各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型，利用算法来分析数据，并确定与所分析数据的特征最符合的模型。一般来说，数据挖掘算法由模型、偏好和搜索三部分组成。算法的目的就是找到适合于数据的模型，但必须使用一些标准来进行模型选择。所有的算法都要使用搜索与优化技术对模型进行搜索。

本文转载自： http://blog.sciencenet.cn/home.php?mod=space&uid=34250&do=blog&id=413526

linglingbaby

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理、分析与挖掘：机遇与挑战

2011年2月11日出版的《科学》杂志刊登专题——《数据处理》（Special Online Collection: Dealing with Data），围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》（Challenges and Opportunities）介
复制链接

扫一扫