机器学习
文章平均质量分 70
bugmaker.
这个作者很懒,什么都没留下…
展开
-
三种常见的特征选择方法
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。原创 2022-11-15 15:07:53 · 7927 阅读 · 0 评论 -
softmax算法详解
softmax简介在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。2.softmax函数的数学形式定义可以看到,softmax函数解决了从一个原始的n维向量,向一个n维的概率分布映射的问题。那么在多分类问题中,假设分类数是n,模型希望预测的就是某样本在n个分类上的概率分布。如果用深度学习模型进行建模,那么最后输出层的形式是由n个神经元组成的,再把n个神经元原创 2022-03-09 21:21:31 · 13237 阅读 · 0 评论 -
感知机算法
感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别(取+1和-1二值)。感知机对应于输入空间(特征空间〉中将实例划分为正负两类的分离超平面,属于判别模型,感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知机模型感知机学习策略假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确原创 2022-03-05 15:19:46 · 1738 阅读 · 2 评论 -
GBDT算法详解
基本思想GBDT的基本结构是决策树组成的森林,学习方式是梯度提升。具体的讲,GBDT作为集成模型,预测的方式是把所有子树的结果加起来。GBDT通过逐一生成决策子树的方式生成整个森林,生成新子树的过程是利用样本标签值与当前树林预测值之间的残差,构建新的子树。例如,当前已经生成了3课子树了,则当前的预测值为D(x)=d1(x)+d2()x+d3(x),此时我们得到的当前的预测值为D(x)效果并不好,与真正的拟合函数f(x)还有一定的差距。GBDT希望的是构建第四棵子树,使当前树林的预测结果D(x)与第四棵原创 2022-03-04 23:00:40 · 17683 阅读 · 2 评论 -
AdaBoost算法详解
AdaBoostadaboost算法的核心思想是:对于所有的样本我们先初始化一个权重,在算法的一开始,每个样本的权重是一样的,即每个样本被选到的概率相同。然后我们选择一个特征,只用这一个特征进行分类,得到一个弱分类器(通常,这个弱分类器的效果会比较差,会有很多的样本被识别错误)。接下来,我们对样本的权重进行重新分配,对于那些被识别错误的样本,我们给它更高的权重,对于那些识别正确的样本,我们给与更低的权重。然后在此基础上,我们再选择另外的一个特征(这个特征应该对那些之前被识别错误的样本有较好区分作用),得到原创 2022-03-02 22:24:03 · 9823 阅读 · 4 评论 -
集成学习(adaboost、GDBT、随机森林)
boostingAdaBoostGDBTbagging随机森林原创 2022-02-27 20:27:08 · 783 阅读 · 0 评论 -
决策树算法
决策树是一种基本的分类与回归方法。它既可以用来分类也可以用来回归。这里我们重点讨论用于分类的决策树。决策树的学习通常包括三个步骤:特征选择、决策树生成、决策树剪枝。下面对这3哥步骤进行详细讲解。特征选择特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。那么如何才能选到分类效果好的特征呢?通常特征选择的准则是信息增益或信息增益比。信息增益信息增益比决策树生成ID3算法C4.5算法决策树剪枝决策树生成算法递归地产生决策树,直到不能继续下去为止。这样产生的树往往对训练数原创 2022-02-27 16:45:16 · 1863 阅读 · 0 评论 -
原问题与对偶问题
原问题和对偶问题之间的关系原创 2022-01-19 15:10:56 · 1304 阅读 · 0 评论 -
支持向量机(SVM)
算法简介支持向量机(SVM)是种二类分类模型。 它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机:支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机、线性支持向量机以及非线性支持向量机。简单模型是复杂模型的基础,也是复杂模型的特殊情况。当训练数据线原创 2022-01-17 16:42:49 · 30000 阅读 · 1 评论 -
逻辑回归(logistics regression)与 softmax
前几章分别讲了多元线性回归的推理思路和求解过程(解析解求解和梯度下降求解),文章并不以代码和公式推导过程为重点,目的是跟大家一起理解算法.前两章的内容是学习算法的基础,所以本章会在前两章的基础上讨论逻辑回归(logistics regression).逻辑回归也属于有监督机器学习. 之前我们了解到了多元线性回归是用线性的关系来拟合一个事情的发生规律,找到这个规律的表达公式,将得到的数据带入公式以用来实现预测的目的,我们习惯将这类预测未来的问题称作回归问题.机器学习中按照目的不同可以分为两大类:回归和原创 2022-01-16 15:29:06 · 1870 阅读 · 0 评论 -
机器学习概述
机器学习的分类机器学习大致上可以分成3类:监督学习、无监督学习、强化学习监督学习监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。比较出名的监督学习算法有:线性回归、逻辑回归、K近邻、SVM、朴素贝叶斯、决策树等。监督学习的应用主要在三个方面:分类问题,标注问题,回归问题。无监督学习无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标准数据是自然得到的数据,预测模型表.原创 2021-09-27 14:59:23 · 118 阅读 · 0 评论 -
决策树(CART)
分类与回归树模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成既可以用于分类也可以用于回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部节点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。CAR原创 2021-08-22 16:53:02 · 7663 阅读 · 0 评论 -
主成分分析法(PCA)
主成分分析法是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观察数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有利工具,也用于其他机器学习方法的前处理。关键理论或技术技术在PCA中,数据从原来的坐标系转换到了新的坐标系,新的坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向,该过程一直重复,重复次数原创 2021-08-22 16:50:35 · 21678 阅读 · 0 评论 -
朴素贝叶斯算法
简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。朴素贝叶斯法实现简单,学习和预测的效率都很高,是一种常用的方法。关键理论或技术技术计算先验概率及条件概率对于给定的实例x,计算P(Y=c_k)∏_(j=1)^n▒P(X(j)=├ x(j)┤|Y=c_k )确定实例X的类(1)朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率原创 2021-08-22 16:49:15 · 1549 阅读 · 0 评论 -
K近邻(KNN)
K近邻法假设给定一个训练数据集,其中的实例类别已定。分类时对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测。K近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。K值的选择、距离度量及分类决策规则是K近邻法的三个基本要素。关键理论或技术技术K近邻算法简单、直观,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类。(1)k近邻法是基本且简单的分类与回归方法。K近邻的基本做法是:原创 2021-08-22 16:45:47 · 1997 阅读 · 0 评论 -
聚类方法及实现(K-means)
算法简介K均值聚类是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为K个子集,构成K个类,将n个样本分到K个类中,每个样本到其所属类的中心的距离最小。K均值聚类的算法是一个迭代的过程,每次迭代包括两个步骤:首先选择K个类的中心,将样本逐个指派到与其最近的中心的类中,得到一个聚类结果;然后更新每个类的样本均值,作为类的新的中心;重复以上步骤,直到收敛为止。需要注意的是:(1)K均值聚类是常用的聚类算法,有以下特点:基于划分的聚类方法;以欧氏距离平方表示样本之间的距离,以中心或样本的均值表示类原创 2021-08-22 16:43:34 · 652 阅读 · 0 评论 -
梯度下降与反向传播
梯度下降与反向传播原创 2021-06-10 12:19:24 · 542 阅读 · 0 评论