机器学习
文章平均质量分 84
MonkyK
这个作者很懒,什么都没留下…
展开
-
机器学习总结(一)——主要算法
自学了一段时间的机器学习后来写写自己的一些理解,首先理一下各种学习方法,以及它们的分类。机器学习的主要算法分为:一、监督学习(指样本带有标签,知道每个样本分属哪个类别): 主要包括分类和回归,但是很多方法其实可以用于分类,也可以用于回归,如决策树(DT)等。分类—— 1、逻辑回归(Logister Regression); ...原创 2018-08-19 19:35:58 · 814 阅读 · 0 评论 -
机器学习总结——数据预处理和特征工程
实际生产中机器学习的整个过程应该是如下的几步(后面还将从数据挖掘的角度另文进行讲解):1.场景选择(算法选择)——根据实际问题选择合适的算法,是分类还是回归等,是否需要做特征抽象,或者特征缩放;2.数据预处理——缺失值的处理,数据清洗等等;3.特征工程——包括特征构建、特征提取、特征选择等;4.模型训练——判断过拟合和欠拟合,通过交叉验证和grid research来选择参数,调整...原创 2018-09-09 16:56:01 · 3716 阅读 · 0 评论 -
机器学习算法——集成算法(一)
集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略结合把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器。周志华的书上说,“个体学习器的"准确性"和"多样性"本身就存在冲突,一般准确性很高之后,要增加多样性就需牺牲准确性。事实上,如何产生并结合‘好而不同’的个体学习器,恰是集成学习研究的核心”(对准确性和多样性的论述还不是很理解)。按照个体学习器之间的关...原创 2018-08-27 19:26:52 · 12037 阅读 · 1 评论 -
机器学习算法——线性回归
线性回归应该算机器学习算法里面最基础的算法了,分别用作回归(y值为连续值)和分类(y值为离散)。在学习线性回归的过程中,有很多机器学习的概念和方法是在这时候提出的。在现实中变量之间的关系,是有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示,非确定的部分我们可以用概率分布来表示,如一个人的身高对应一定的体重,但不是身高相同体重就一定相同。确定关系里最常用的就是线性关系了。如下...原创 2018-09-09 23:16:05 · 670 阅读 · 0 评论 -
机器学习总结(四)——最优化方法
机器学习中所谓的训练其实就是损失函数的优化过程,求损失函数的最优化解,主要是得靠一些常规套路,去一点一点地接近最优化目标。常用的有梯度下降法、牛顿法和拟牛顿法、共轭梯度法、启发式优化方法、拉格朗日乘数法等。一、梯度下降法(Gradient Descent) 梯度下降法实现的原理简单,是最常用最简单的最优化方法。当目标函数是凸函数时(如线性规划),得到的是全局最优解。但是在一...原创 2018-08-21 21:57:19 · 1981 阅读 · 0 评论 -
机器学习总结(三)——损失函数
经典机器学习算法,他们最本质的区别是分类思想(预测y的表达式)不同,有的是基于概率模型,有的是动态规划,表象的区别就是最后的损失函数不同。损失函数分为经验风险损失函数和结构风险损失函数,经验风险损失函数反映的是预测结果和实际结果之间的差别,结构风险损失函数则是经验风险损失函数加上正则项(L0、L1(Lasso)、L2(Ridge))。不同的算法常用的损失函数(Loss Function)有...原创 2018-08-21 19:59:33 · 52828 阅读 · 0 评论 -
机器学习算法——决策树
决策树(Decession Tree) 算法用处很多,而且还是一些集成算法的基础。它的基本原理是:选取某个特征属性,按照特征值来讲最初的样本集分开成两个节点,对分开的节点再选取特征进行划分生成新的节点,一直递归地划分下去直到满足一定条件为止(全部叶子节点中都是一类,或者树的层数、宽度达到一定数值)。这个过程有点像有一堆混在一起的豆子,我们手上有几种筛子,通过几次筛选后讲不通的豆子分开,这个“筛子”...原创 2018-08-25 01:14:18 · 608 阅读 · 0 评论 -
机器学习算法——K近邻
KNN(K-Nearest Neighbor,K近邻)算法作为一种分类算法,它的实现原理比较简单:1.指定K值;2.计算当前点与样本点中的距离,并按从小到大顺序排列;3.在距离最小的前K个点中,统计样本的标签数量,将当前点分类到同类最多的类别里面去(也就是少数服从多数的原则)。 ...原创 2018-08-23 20:27:58 · 706 阅读 · 0 评论 -
机器学习算法——聚类
聚类属于无监督学习,事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类是不需要对数据进行训练和学习的。主要的聚类算法有K-Means和DBSCAN。K-Means算法的基本原理比较简单:1.指定K值(数据要分成的簇的数目),并指定初始的k个质心;2.遍历每个数据点,计算其到各个质心的距离,将其归类到距离最近的质心点;3分类完毕后,求各个簇的质心,得到新的质心点;4.重复2和3中的...原创 2018-08-23 14:50:44 · 992 阅读 · 0 评论 -
机器学习——集成算法(二)
接着集成算法讲讲GBDT和Xgboost,二者的原理其实差不多的,他们都属于提升算法。梯度上升(Gradient Boosting)是说,在集成算法中每个弱决策树的生成都是依据损失函数的梯度方向。提升算法,是找到找到最优解F(x)使得损失函数在训练集上期望(偏差)最小。损失函数若是回归则常取最小平方误差和绝对值误差;如果是回归则采用类似Logister的似然函数,属于指数损失函数。首先从常函数...原创 2018-09-20 14:40:07 · 697 阅读 · 0 评论 -
机器学习总结(二)——主要过程和名词
讲述机器学习算法的主要过程,以及涉及的一些名词。1、物理意义,学习不太算法时需要了解其基于什么样的物理过程,比如逻辑回归是将样本的特征通过函数映射为一个(0,1)之间的数字,如果大于决策边界(如0.5)则判定为标签1,小于则判定为0。物理意义其实相当于模型的定义,或者建立模型建立的过程。2、决策边界,分类算法是为了把样本分开,然后通过边界(也就相当于分类器或者模型)来判断未知样本的类别,比...原创 2018-08-20 19:03:04 · 383 阅读 · 0 评论 -
机器学习算法——支持向量机
支持向量机(SVM,support vectors machine)的算法原理比较简单,就是寻找最大间隔讲两个类别分开,从数学上推可能复杂点。按照样本的情况一下三种:①当训练样本线性可分时,通过硬间隔最大化——线性可分支持向量机;②当训练样本近似线性可分时,通过软间隔最大化——线性支持向量机;③当训练样本线性不可分时,通过核技巧和软间隔最大化——非线性支持向量机;首先从线性可分支持...原创 2018-08-31 18:00:24 · 844 阅读 · 0 评论 -
机器学习算法——逻辑回归
逻辑回归可以说是基于线性回归的了,但是它实际上是做分类工作的,原理虽然简单但是也可以引出很多机器学习的概念。我们分类的标签如果设定为[0, 1],那么则需要一个函数将映射到0~1的范围,这样就需要一个近似单位阶跃的单调可微的函数,对数几率函数正是这样的函数。 代入得到 ...原创 2018-09-10 21:12:44 · 274 阅读 · 0 评论