什么是数据
数据是人类对所感兴趣的对象特征的记录,数据用于描述事 实,具有时间和空间属性
大数据
大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案
大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂
大数据的4V特征
数据挖掘
-从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合。
◆ 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有 意义的结构;
◆ 数据挖掘的核心任务:对数据特征和关系的探索和建立。
◆ 根据探索的关系有没有目标将数据挖掘方法分成两类:有指导 的学习和无指导的学习。
◆ 数据挖掘的作用:知识发现
数据挖掘的功能
机器学习在大型数据库上的 应用称为数据挖掘
数据挖掘重在发现知识, 模式识别重在认识事物。
数据挖掘是统计分析方法的延伸和扩展
数据挖掘的主要方法
分类、聚类、相关规则、回归、其他…
数据挖掘流程
- 问题识别—明确系统和组织中的关键问题
- 数据理解
- 数据准备—预处理,利于后续操作
- 模型建立
- 模型评价—包括功能性评价和服务型评价(简单验证法、交叉验证法等)
- 部署应用
离群点
离群点是显著不同于数据集中其余部分的数据
离群点检测方法的分类
基于统计(statistical-based)的方法
基于距离 (distance-based)的方法
基于偏差(deviation-based)的方法
基于密度(density-based)的方法
高维数据的异常探测
基于统计的离群点检测
离群点是一个对象,关于数据的概率分布模型,它具有 低概率
基于距离的离群点检测
一个对象是离群的,如果它远离大部分其它对象。
两种策略
①采用给定邻域半径,依据点的邻域中包含的对象多少来判 定离群点
② 利用k最近邻距离的大小来判定离群
不平衡数据级联算法
监督学习
基于含有输入和输出的训练集,建立由输入变量估计输出变 量的模型,并给出模型相关参数的计算方法
回归学习
回归是典型的统计方法,用于描述两个相互影响的变量群之间的依存 关系,它也可以用于分类,但更多的是用于连续变量间的关系估计。
监督学习概述
K近邻
k近邻(k-Nearest Neighbor, kNN)学习是一种常用的监 督学习方法
对于某个给定的测试样本,找到训练集中距离最近的k个 样本,对于分类问题使用“投票法”获得预测结果,对于 回归问题使用“平均法”获得预测结果。还可基于距离远 近进行加权平均或加权投票,距离越近的样本权重越大。
决策树
决策树基于树结构来进行预测
决策树学习的关键在于如何选择最优划分属性。一 般而言,随着划分过程不断进行,我们希望决策树 的分支结点所包含的样本尽可能属于同一类别,即 结点的“纯度”(purity)越来越高
经典的属性划分方法:
信息增益、增益率、基尼指数
“信息熵”是度量样本集合纯度最常用的一种指标,假定当 前样本集合 中第 类样本所占的比例为 , 则 的信息熵定义为
决策树—停止分裂条件
一般性条件 :
– 最小节点数:数据量少时,容易强化噪声数据作用;
降低树生长复杂度
– 熵或者基尼值小于阀值:数据纯度大
– 决策树的深度达到指定的条件
– 所有特征已经使用完毕,不能继续进行分裂
决策树—剪枝
– 过拟合:参数过多,样本少、模型的复杂度要高于实际的问题
– 欠拟合:模型的复杂度较低,无法很好的学习到数据背后的规律
– 泛化能力:模型对新数据的预测能力、性能评价
– 收敛(不收敛):算法有能力找到局部的或者全局的最小值
泛化能力较弱,可能出现过拟合
奥卡姆剃刀原则(Occam’s Razor): 能用简单的方法完成任务的尽量不要复杂的
剪枝的基本策略
– 预剪枝
– 后剪枝
随机森林
随机森林算法是一种组合多个决策树进行分类的方法。
每次随机选择一些特征,独立建立决策树,重复 这个过程,如此建立许多彼此独立的决策树,最终的分类结 果由产生的这些树共同决定。
集成学习(ensemble learning)通过构建并结合多个学习 器来提升性能
人工神经网络
神经元
感知机
误差逆传播算法(Error BackPropagation, 简称BP)是最 成功的训练多层前馈神经网络的学习算法.
支持向量机
线性模型:在样本空间中寻找一个超平面, 将不同类别 的样本分开.
无监督学习
根据类别未知(没有被标记)的训练样本解决模式识别中的各 种问题,称之为无监督学习。
无监督学习的任务:寻找数据集中的规律性
关联分析
关联分析用于发现隐藏在大型数据集中有意义的联系,所发现的模式 通常用关联准则或频繁项集的形式表示。
关联规则挖掘
关联规则-Apriori算法
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
Apriori算法两个步骤
– 通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低 于户设定的阈值的项集;
– 利用频繁项集构造出满足用户最小置信度的规则。
聚类分析
聚类分析(Cluster Analysis)是一个将数据集中的所有数据, 按照相似性划分为多个类别(Cluster, 簇)的过程;
常用的聚类分析方法:
❑ 划分法(Partitioning Methods):以距离作为数据集 中不同数据间的相似性度量,将数据集划分成多个簇。
◼ 属于这样的聚类方法有:k-means、k-medoids等。
❑ 层次法(Hierarchical Methods):对给定的数据集进 行层次分解,形成一个树形的聚类结果。
◼ 属于这样的聚类方法有:自顶向下法、自底向上法。
密度聚类