数据挖掘(Data mining)
概念
- 数据挖掘是指从大量数据中通过算法搜索隐藏于其中信息的过程
- 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过 去的经验法则)和模式识别等诸多方法来实现上述目标。
特点
- 基于大量数据 小型数据可以人工分析总结规律,小数据量无法反应真实世界普遍特性
- 非平凡性 数据挖掘的知识一定是不简单的
- 隐含性 数据挖掘要发现深藏数据内部的知识,而不是直接浮现在数据表面的知识
- 新奇性 挖掘的知识在以前是未知的,否则只是验证了经验
- 价值性 可以为企业带来直接间接的效益
数据挖掘步骤
- 定义问题
- 建立数据挖掘库
- 分析数据
- 准备数据
- 建立模型
- 评价模型和分析
经典算法
- 神经网络法(neural network algorithm) 模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处 理单元,试图模拟人脑神经元的功能,可完成分类、 聚类、特征挖掘等多种数据挖掘任务
- 决策树法(decision tree) 决策树是根据对目标变量产生效用的不同而建构分类 的规则,通过一系列的规则对数据进行分类的过程, 其表现形式是类似于树形结构的流程图。比如,在贷款申请中,要对申请的风险大小做出判断。
- 遗传算法(Genetic Algorithm,GA) 遗传算法模拟了自然选择和遗传中发生的繁殖、交配 和基因突变现象,是一种采用遗传结合、遗传交叉变 异及自然选择等操作来生成实现规则的、基于进化理 论的机器学习方法。
- 粗糙集法(rough set approach) 粗糙集法也称粗糙集理论,是一种新的处理含糊、不 精确、不完备问题的数学工具,可以处理数据约简、 数据相关性发现、数据意义的评估等问题。
- 模糊集法(fuzzy set method) 模糊集法是利用模糊集合理论对问题进行模糊评判、 模糊决策、模糊模式识别和模糊聚类分析。模糊集合 理论是用隶属度来描述模糊事物的属性。系统的复杂 性越高,模糊性就越强
- 关联规则法(Association Rules) 关联规则反映了事物之间的相互依赖性或关联性。
任务
- 预测建模Predictive modeling
- 分类:预测离散目标变量
- 回归regression:预测连续目标变量
- 关联分析associative analysis
- 用于发现描述数据强关联特征模式
- 聚类分析cluster analysis
- 发现紧密相关的观测值族群,发现紧密相关的观测值 群组,使得与属于不同簇的观察值相比,同一簇的观 察值相互之间尽可能的类似
- 异常检测Anomaly Detection
- 识别其特征显著不同于其他数据的观测值
挖掘过程
- 数据准备
- 数据集成
- 数据选择
- 预处理
- 数据挖掘
- 结构表达与解释
成功案例
- 数据挖掘帮助Credilogros Cía Financiera S.A.改善客户信用评分
- 数据挖掘帮助DHL实时跟踪货箱温度
- 电信行业应用
存在问题
设计保密
法律
伦理问题
人工智能(Artificial Intelligent)
概念
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能 的理论、方法、技术及应用系统的一门新的技术科 学。
应用
机器视觉,指纹识别,人脸识别,专家系统,自动规 划,智能搜索