机器学习(2)

监督学习和无监督学习

监督学习:在一个典型的监督学习中,训练集有标签y,我们的目标是找到能够区分正样本和负样本的决策边界,据此拟合一个假设函数。

无监督学习:没有标签y

无监督学习方法:聚类、降维(高维空间数据点映射到低维空间中)、关联规则、推荐系统

聚类:K-means、密度聚类、层次聚类

应用:市场细分、文档聚类、图像分割、图像压缩、聚类分析、保险欺诈检测、公共交通数据分析、客户细分、识别癌症数据

聚类:把数据分成三个分开的点集(簇),一个能够分出这些点集的算法,即为聚类算法。

K-means:

该算法具有一个迭代的过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小。簇的质心是这个簇的算术平均值。

算法流程:

  1. 选K个点作为初始质心
  2. 将每个点指派到最近的质心,形成K个簇
  3. 对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心
  4. 重复以上两步,直到质心不再发生变化

 K值的选择:找到簇的数量,通过“肘部法则”进行计算,找到肘点。

K-means缺点:需要预先指定簇的数量;如果有两个高度重叠的数据,可能就不能被区分;欧几里德这些不平等的权重因素,限制了能处理数据变量的类型;无法处理异常值和噪声数据;不适用于非线性数据集。

密度聚类DBSCAN: Density-Based Spatial Clustering of Applications with Noise

将数据分为三类:核心点、边界点、噪音点

从某个选定的核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。

层次聚类、分裂聚类

聚类的评价指标:均一性、完整性、V-measure、轮廓系数(簇内不相似度尽可能小,簇间不相似度尽可能大)调整兰德系数(ARI)取值范围为-1到1,值越大越吻合。

监督学习

最主要的类型:分类问题:离散的

二分类:分成两类

多分类:分成多类

Sigmoid函数:y的范围在0-1之间

贝叶斯公式:朴素贝叶斯是典型的生成学习方法。朴素贝叶斯法的基本假设是条件独立性

KNN算法:

距离度量:曼哈顿距离,切比雪夫距离、闵可夫斯基距离 、汉明距离、余弦相似度

决策树原理:

决策树:从训练数据中学习得出一个树状结构的模型,属于判别模型。监督学习

决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择分支,达到最终的叶子节点。

决策树归纳的基本算法是贪心算法,自顶向下来构建决策树。

缺点:容易造成过拟合,需要采用剪枝操作;忽略了数据之间的相关性。

三种基本类型:建立决策树的关键,即在当下状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有以下三种算法:ID3、C4.5、CART。

ID3算法:

“信息熵”,期望信息越小,信息熵越大,样本纯度越低。以信息论为基础,以信息增益作为衡量标准。

  1. 初始化特征集合和数据集合;
  2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最多大的特征作为当前决策节点;
  3. 更新数据集合和特征集合;
  4. 重复2、3步,若子集值包含单一特征,则分支为叶子节点;

C4.5:

算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。

  1. 用信息增益率来选择划分特征,克服了用信息增益选择的不足,但信息增益率对可取值数目较少的属性有所偏好
  2. 能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理;
  3. 能够处理具有缺失属性值的训练数据;
  4. 在构造树的过程中进行剪枝;

为了防止过拟合,采取剪枝策略:在节点划分前来确定是否继续增长,及时停止增长。分为预剪枝和后剪枝,后剪枝导致的欠拟合风险更小。 

采用的悲观剪枝方法。

缺点:只能用于分类,不能用于回归;用的是多叉树。二叉树其实效率更高。有大量耗时的对数运算、连续值和排序运算。

CART:

用基尼指数来做分类,用均方差做回归。是二叉树。

对连续特征值和离散特征值的处理方法不同。

CART算法会多次参与节点的建立,ID3和C4.5。

具体流程:

  1. 计算每一个节点的条件熵
  2. 递归的从叶子节点开始往上遍历,减掉叶子节点,然后判断损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点。
  3. 重复2,直到完全不能剪枝

 样本数据的差异:ID3只能处理离散数据且缺失值敏感,C4.5和CART可以处理连续性数据且有多种方式处理缺失值;从样本量考虑的话,小样本建议C4.5,大样本建议CART。C4.5处理过程中需对数据集进行多次扫描排序,处理成本耗时较高,CART本身是一种大样本的统计方法,小样本处理下泛化误差较大。

样本特征差异:ID3和C4.5只使用一次特征,CART可多次重复使用特征。

支持向量机:

找到集合边缘上的若干数据(称为支持向量),用这些点找出一个平面,使得支持向量到该平面的距离最大。

核函数:低维映射到高维,由线性不可分变为线性可分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值