概念
数据挖掘从字面意思来看在于“数据”和“挖掘”。数据有很多属性,如类型、大小等,“挖掘”一般指挖掘有价值的“宝贝”,所以数据挖掘是指在比较多的数据中寻找数据的价值。
数据挖掘涉及技术
数据挖掘吸纳了统计学、模式识别、数据库、数据仓库、可视化、高性能计算等技术。
识别模式:生命体对环境及客体的识别,如人自己建立识别模式通过“光”和”声”来分析自然界的客体。
可视化:指数据挖掘可视化和数据挖掘结果可视化。
数据挖掘产生的必然性
数据挖掘产生是必然的,随着人类的发展”知识体“越来越庞大,互联网又使得信息产生和传播变得空间容易,产生了大量数据,急需一种技术从这些数据中获得价值,把数据转化为有组织的知识,对”简单“的数据进行”简单“的组织不能满足”复杂”数据的”复杂“组织。
数据挖掘涉及步骤
数据挖掘就像沙子里淘各种细小宝贝。
(1)数据清洗~洗掉没用的杂质,防止干扰。
(2)数据分类、聚合~各种细小宝贝需要分类。
(3)数据分析
(4)评估
(4)分析结果可视化。