机器学习
文章平均质量分 92
小颜学人工智能
越努力,越幸运❤️
展开
-
机器学习算法总结12:LightGBM
这个过程涉及到用直方图方法求最优分割点(与xgboost的预排序的区别)、leaf-wise(与xgboost的level-wise的区别)的两个改进。拟合残差树的整体思路:<1>每个节点分裂前做出该节点各个特征的直方图<2>通过直方图,把相应的取值带入增益公式,计算出各个特征以每种不同取值范围划分的增益。按leaf-wise的思路找出所有叶节点中增益最大的分割点为最...原创 2020-03-12 20:48:44 · 356 阅读 · 0 评论 -
机器学习算法总结11:XGBoost
XGBoost(Extreme Gradient Boosting)是于2015年提出的Gradient Boosting实现算法,在速度和精度较GBDT有显著提升。XGBoost以类似牛顿法的方式进行优化。任何机器学习问题都可以从目标函数出发,目标函数分为两部分:损失函数+正则化项,其中,损失函数用于描述模型拟合数据的程度,正则化项用于控制模型的复杂度。与GDBT一样,XGBoost采用加...原创 2020-03-09 22:24:43 · 994 阅读 · 0 评论 -
机器学习算法总结10:Bagging及随机森林
Bagging是并行式集成学习方法最著名的代表,可以用于分类任务,也可以用于回归任务,被誉为“代表集成学习技术水平的方法”。不同于Boosting方法对训练数据集赋予不同的权重训练基学习器,Bagging采用“重采样法”,将训练数据集进行采样,进而产生若干个不同的子集,再从每个数据子集中训练出一个基学习器,然后使用结合策略得到强学习器。为得到不同的采样集,使用自助采样法进行采样:给定包含m个样本...原创 2020-03-08 15:55:49 · 511 阅读 · 0 评论 -
机器学习算法总结9:k-means聚类算法
无监督学习:训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。聚类是典型无监督学习任务,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。距离度量:通过距离来定义相似度度量,距离越大,相似度越小。最常用的距离度量是闵可夫斯基距离,其中,当p=2时,称为欧氏距离;当p=1时,称为曼哈顿距离。详见我的博客:...原创 2020-03-07 19:33:41 · 327 阅读 · 0 评论 -
机器学习算法总结8:集成学习(Ensemble Learning)及Stacking
集成学习(Ensemble Learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成任务,其可以用于分类问题,也可以用于回归问题。概括:通过学习训练数据集得到若干个体学习器(弱学习器),通过结合策略,最终形成一个强学习器,以达到“博采众长”的目的。目前集成学习可分为两类:(图片来源:https://www.bilibili.com/video/av6155388...原创 2020-03-04 16:53:16 · 1236 阅读 · 0 评论 -
机器学习算法总结7:Boosting、Adaboost及GBDT
提升(boosting)方法:在分类问题中,通过改变训练样本的权重(概率分布),进而通过不同的训练数据学习多个弱分类器(基本分类器),然后将这些弱分类器线性组合,构成一个强分类器,以提高分类性能。1.AdaBoostAdaBoost算法是代表性的提升方法,是二类分类算法。前提条件:概率近似正确(PAC),即一个概念是强可学习的充分必要条件是这个概念是弱可学习的。所以,可以通过弱分类器构造强分...原创 2020-03-04 14:57:08 · 445 阅读 · 0 评论 -
机器学习算法总结6:线性回归与逻辑回归
线性回归(Linear Regression):线性回归是回归模型,y=f(x):表明自变量x和因变量y的关系。1.模型2.策略损失函数(平方损失函数):3.算法最小二乘法:注意:要求X是满秩的!逻辑回归(Logistic Regression):逻辑回归是统计学习中的经典分类方法,属于对数线性模型。1.模型逻辑回归实际上是处理二类分类问题的模型,输出结果是0或1,在线...原创 2020-02-23 19:58:11 · 286 阅读 · 0 评论 -
机器学习算法总结5:决策树
决策树是一种基本的分类与回归方法。在分类问题中,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习包括3个步骤:特征选择、决策树的生成及决策树的修剪,常用的算法有ID3,C4.5和CART。决策树的定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点,内部结点表示一个特征或属性,叶结...原创 2020-02-22 21:33:28 · 418 阅读 · 0 评论 -
机器学习算法总结4:朴素贝叶斯法
朴素贝叶斯(naive Bayes)是基于贝叶斯定理和条件独立假设的分类方法。该方法是生成方法,即通过数据学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入x,求出后验概率最大的输出y。1.模型联合概率分布:P(X,Y)先验概率(边缘概率)分布:条件概率分布:三者关系:条件概率分布=联合概率分布/先验概率。条件概率分布有指数级数量参数,通过条件独立假设(用于分类的特征在类...原创 2020-02-20 19:18:30 · 494 阅读 · 0 评论 -
机器学习算法总结3:k近邻法
k近邻法(k-NN)是一种基本分类与回归方法。算法思想:给定一个数据集,对新的输入实例,在训练数据集中找到与其最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为哪个类。k近邻的特殊情况是k=1的情形,称为最近邻算法。k近邻算法没有显式的学习过程。1.模型:k近邻法使用的模型对应于对特征空间的划分。k近邻法中,当训练集、k值、距离度量(如欧式距离)及分类决策规则确定后,对于...原创 2020-02-19 10:23:40 · 430 阅读 · 0 评论 -
机器学习算法总结2:感知机和支持向量机
感知机于1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知机二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值,该模型属于判别模型,旨在求出将训练数据进行线性划分的分离超平面。1.模型:假设数据集满足线性可分性,由输入空间到输出空间的决策函数如下:w为权值(或权值向量),b为偏置,w·x表示w和x的内积,sign是符号函数,即:1....原创 2020-02-17 11:39:41 · 2182 阅读 · 0 评论 -
机器学习算法总结1:统计学习方法概论
总结《统计学习方法》学习心得统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习的研究对象是数据(data),统计学习关于数据的基本假设是同类数据具有一定的统计规律性,数据分为连续变量和离散变量。统计学习三要素:模型(model),策略(strategy)和算法(algorithm)。1.模型模型的假设...原创 2020-02-16 21:25:59 · 687 阅读 · 0 评论