最近有机会接触到一些数据挖掘的东西.
个人感觉,这项技术一定会有较大的发展前景.
所以借助这篇文章,阐述一下自己对数据挖掘(Data Mining)的看法.
并一步一步地解释数据挖掘技术的概念.
(一)数据挖掘的产生
数据存储技术的发展与应用:
任何技术都必须与应用相结合.数据挖掘的应用是建立在数据存储的基础上的.简单地来说.
在过去的10年里.Internet的广泛应用以及企业的信息管理集成导致了数据存储技术的迅速发展
企业们已经习惯于将过去的纸面工作遗植到计算机上进行.数据库的使用为这项工作提供了基础.
也涌现了一大批优秀的数据库管理系统,类似于Oracle , Sqlserver. DB2 等等..但总的来说,这些数据库
都提供了同一个功能:数据存储.
人们可以自行构件程序来使用和管理这些数据.最初的应用聚集在检索和更新2项上.举个简单的例子:
当我们在cnblogs上提交一份随笔时.文章的实际内容将被运行于服务器端的Web应用程序提交到一个
数据库(一张表)里.
有人希望浏览它时,Web应用程序又会从数据库中将它检索出来.并通过网络将内容发送到浏览者的浏览器上.
我们也可以删除该随笔,数据库会负责将该文章的记录删除掉(或者是更新一个IsDeleted字段)
出现的问题:海量数据和数据坟墓:
海量数据是一个很形象的词汇.
一个大型超市(我确信它应用了销售管理系统)每天能产生多少销售记录?
回答是:上万条.
一年能产生多少数据?
回答是:海量数据.
但是,数据集是否能称作数据坟墓并非以数据的多寡来界定的.
当数据集多到失去意义的时候,便堕落成数据坟墓了.
以大型超市的销售记录为例,检索任何一条销售记录都失去了意义.
这些庞大的销售记录老实
个人感觉,这项技术一定会有较大的发展前景.
所以借助这篇文章,阐述一下自己对数据挖掘(Data Mining)的看法.
并一步一步地解释数据挖掘技术的概念.
(一)数据挖掘的产生
数据存储技术的发展与应用:
任何技术都必须与应用相结合.数据挖掘的应用是建立在数据存储的基础上的.简单地来说.
在过去的10年里.Internet的广泛应用以及企业的信息管理集成导致了数据存储技术的迅速发展
企业们已经习惯于将过去的纸面工作遗植到计算机上进行.数据库的使用为这项工作提供了基础.
也涌现了一大批优秀的数据库管理系统,类似于Oracle , Sqlserver. DB2 等等..但总的来说,这些数据库
都提供了同一个功能:数据存储.
人们可以自行构件程序来使用和管理这些数据.最初的应用聚集在检索和更新2项上.举个简单的例子:
当我们在cnblogs上提交一份随笔时.文章的实际内容将被运行于服务器端的Web应用程序提交到一个
数据库(一张表)里.
有人希望浏览它时,Web应用程序又会从数据库中将它检索出来.并通过网络将内容发送到浏览者的浏览器上.
我们也可以删除该随笔,数据库会负责将该文章的记录删除掉(或者是更新一个IsDeleted字段)
出现的问题:海量数据和数据坟墓:
海量数据是一个很形象的词汇.
一个大型超市(我确信它应用了销售管理系统)每天能产生多少销售记录?
回答是:上万条.
一年能产生多少数据?
回答是:海量数据.
但是,数据集是否能称作数据坟墓并非以数据的多寡来界定的.
当数据集多到失去意义的时候,便堕落成数据坟墓了.
以大型超市的销售记录为例,检索任何一条销售记录都失去了意义.
这些庞大的销售记录老实