2018年06月_liuy9803

原创机器学习之朴素贝叶斯、贝叶斯网络

一、贝叶斯决策论贝叶斯决策论（Bayesian decision theory）是在概率框架下实施决策方案的基本方法。不要求分类器给出明确的分类结果，而是要给出一个最大概率的类别估计。基本思想是，利用已知类的条件概率和先验概率估计部分未知概率，应用贝叶斯公式转换为后验概率，根据期望损失最小化/后验概率最大化的方法得出最优决策。使用这种方法得到的模型是生成式模型，即...

2018-06-29 16:10:07 2429

原创机器学习之谱聚类算法

参考https://www.cnblogs.com/pinard/p/6221564.html 谱聚类（spectral clustering）是一种基于图论的聚类算法，第一步是构图：将数据集中的每个对象看做空间中的点V，将这些点之用边E连接起来，距离较远的两个点之间的边权重值较低、距离较近的两个点之间的边权重值较高，这样就构成了一个基于相似度的无向权重图G(V,E)...

2018-06-27 17:32:55 10396 3

原创机器学习之密度聚类算法

基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定，以数据集在空间分布上的稠密程度为依据进行聚类，即只要一个区域中的样本密度大于某个阈值，就把它划入与之相近的簇中。密度聚类从样本密度的角度进行考察样本之间的可连接性，并由可连接样本不断扩展直到获得最终的聚类结果。这类算法可以克服K-means、BIRCH等只适用于凸样本集的情况。常用的密度聚...

2018-06-26 11:22:23 23914

原创机器学习之层次聚类算法

层次聚类（Hierarchical Clustering）是对给定数据集在不同层次进行划分，形成树形的聚类结构，直到满足某种停止条件为止。数据集的划分可采用自底向上或自顶向下的划分策略。 1、凝聚的层次聚类算法AGNES AGNES（AGglomerative NESTing）采用自底向上的策略，先将每个样本作为一个初始聚类簇，然后循环将距离最近的两个簇进行合并，直到...

2018-06-25 12:07:34 4374

原创机器学习之K-means、Canopy聚类

一、K-means算法 K-均值算法是发现给定数据集的k个簇的算法，簇个数是用户给定的，每一个簇通过其质心（centroid）即簇中所有点的中心来描述。 1、K-均值算法的流程：（1）对于输入样本集 {x1,x2,...,xm}，随机确定k个质心 {μ1,μ2,...,μk}；（2）计算每个样本xj到各个质心μi的欧式距离：dji=||xj-μ...

2018-06-22 23:42:53 10421 2

原创机器学习之聚类概述及评价指标

聚类是一种无监督学习算法，训练样本的标记未知，按照某个标准或数据的内在性质及规律，将样本划分为若干个不相交的子集，每个子集称为一个簇（cluster），每个簇中至少包含一个对象，每个对象属于且仅属于一个簇；簇内部的数据相似度较高，簇之间的数据相似度很低。聚类可以作为分类等其他学习任务的前驱过程。基于不同的学习策略，聚类算法可分为多种类型：聚类算法衡...

2018-06-21 17:11:22 30054 4

原创机器学习之SMO、SVR

序列最小优化算法SMO SVM的学习问题可以形式化为求解凸二次规划问题，这样的问题具有全局最优解。但是当训练集样本数量很大时，计算开销正比于样本数，并且在实现上也十分复杂。因此引入SMO（Sequential Minimal Optimization）算法，将大的复杂的优化问题分解为多个小的简单的优化问题，最终的结果完全相同且求解时间缩短很多。 SMO算法是一种启发式（...

2018-06-19 15:25:21 3179 5

原创机器学习之SVM软间隔模型、核函数

SVM的软间隔（soft margin）模型当线性数据集中存在少量的异常点，导致数据集不是线性可分，或者即使恰好找到某个核函数使得训练集在特征空间中线性可分，也很难断定这个结果是不是由于过拟合所造成的。解决方法之一是允许SVM在一些样本上分错，因此引入软间隔的概念来解决此类问题。硬间隔：要求所有样本满足约束，函数距离大于等于1；软间隔：允许某些样本...

2018-06-17 23:14:35 3326

原创机器学习之初识支持向量机

支持向量机SVM（Support Vector Machine）是二元分类算法，支持线性分类、非线性分类以及回归问题（SVR），并且通过OVR或OVO的方式可以将SVM应用在多分类领域。在不考虑集成学习算法、特定的数据集等情况时，SVM可以认为是最优秀的分类算法。 SVM的主要思想是：（1）构建最优分割超平面（separating hyper-plan...

2018-06-17 10:26:08 427

原创机器学习之GBDT、XGBoost

一、梯度提升决策树GBDT GBDT（Gradient Boosting Decision Tree）是Boosting算法的一种，每轮迭代是在上一轮弱学习器的损失函数梯度下降的方向上，训练产生新的弱学习器，所有弱学习器加权组合得到最终的强学习器。GBDT对弱学习器的要求是要足够简单，即低方差&高偏差，一般深度不会超过5，叶子节点的数量也不会超过10，默认选择CART回归树。...

2018-06-10 12:52:31 2974

原创机器学习之AdaBoost

Adaptive Boosting（自适应增强）是一种迭代算法，它的主要思想是：每次迭代调整样本的权重，并用更新过权重值的数据集训练下一个弱学习器，直到达到某个预定的足够小的错误率、或者达到指定的最大迭代次数之后，将各个弱学习器加权组合为最终的强学习器。该算法每次迭代改变的是样本的权重（re-weighting），如果无法接受带权样本的基学习算法，则可进行重采样法（...

2018-06-08 17:09:44 518

原创机器学习之随机森林

随机森林（Random Forest）是Bagging的一个扩展变体，以随机选择的属性构建的决策树为基学习器，然后对这些基学习器进行集成的一种集成学习方法。随机森林可以用于分类和回归的任务，同时也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤。随机森林具体的构建方法是（1）从原始样本集m个样本中使用bootstrap采样法选出m个样本； ...

2018-06-07 17:45:15 1764

原创机器学习之集成学习

一、集成学习集成学习（Ensemble learning）是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合，从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法，而更像是一种优化策略。集成学习的一般结构是，先产生一组个体学习器，再用某种结合策略将它们结合起来。集成学习优势在于： ...

2018-06-06 17:56:00 2350

原创机器学习之决策树

一、信息熵 1、比特化（Bits）当随机变量的概率为等概率时，可以用两个比特位来表示一个随机变量。 E.g. P(X=A)=P(X=B)=P(X=C)=P(X=D)=1/4 E(X)=(1/4*2) * 4=-log2(1/4) *(1/4) * 4=2 当随机变量中每个变量出现的概率值不一样时，出现概率大的变量用...

2018-06-03 01:05:45 643

原创机器学习之KNN算法

一、kNN算法 K近邻算法（k-nearest neighbors）是一种简单的有监督学习算法，其工作机制是：给定测试样本，基于某种距离度量找出训练集中与其最接近的k个样本，基于这k个‘邻居’的信息来进行预测。kNN算法既可以应用于分类也可以应用于回归问题，主要区别在于采取的决策方式不同。 kNN算法没有显示的训练过程，为lazy learning，即在训练阶段仅仅是把...

2018-06-01 17:56:13 5958

原创机器学习之逻辑回归、Softmax回归

逻辑回归模型 1、Odds（比值比/优势比）用来衡量特征当中分类之间关联的一种方式，指的是该事件发生的概率与该事件不发生的概率的比值，即p/(1-p) 2、Logit函数也称评定模型、分类评定模型，是最早的离散选择模型 3、Logistic/Sigmoid函数 ...

2018-06-01 12:30:27 827

原创线性回归的过拟合与欠拟合

借用Andrew Ng的PPT，下图分别对应特征多项式阶数d=1、2、4的情况，由此可知，特征多项式的阶数不是越高越好。一、欠拟合的解决方法 1、分析数据，增加特征维度； 2、增加多项式特征阶数； 3、减小正则项的超参系数值； 4、局部加权回归二、过拟合的解决方法 1、分析数据，重新做数据清洗、特征工程...

2018-06-01 10:48:07 6403

原创机器学习之线性回归模型

回归算法是一种有监督学习算法，用来建立自变量X和观测变量Y之间的映射关系，如果观测变量是离散的，则称其为分类Classification；如果观测变量是连续的，则称其为回归Regression。回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有：线性回归（Linear Regression）、逻辑回归（Logi...

2018-06-01 10:38:00 25239 3

liuy9803的博客