![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习算法&预测模型
文章平均质量分 59
机器学习--学习记录&原理介绍&个人总结
一稻道人
当世俗人,偶有不俗之志。
展开
-
随机森林原理&sklearn实现
N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集;随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。2)如果每个样本的特征维度为M,指定一个常数m<<M,3)每棵树都尽最大程度的生长,并且没有剪枝过程。1)如果训练集大小为N,对于每棵树而言,随机森林分类效果(错误率)与两个因素有关。原创 2024-03-09 19:25:50 · 748 阅读 · 0 评论 -
朴素贝叶斯基本原理&sklearn实现
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法, 分类原理就是利用 ### 贝叶斯公式 ### 根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。在某个分类下, 为防止训练集中某个特征值和某个类别未同时出现过,导致预测概率为0。所以需要进行平滑处理。当平滑系数为1时,为拉普拉斯平滑。转化: ### p(类别|特征)=p(特征|类别)*p(类别)/p(特征) ###原创 2024-03-09 19:00:49 · 359 阅读 · 0 评论 -
支持向量机(SVM)算法基本原理&skearn实现
支持向量机(Support Vector Machine,简称SVM)是一种用来解决二分类问题的机器学习算法,它通过在样本空间中找到一个划分超平面,将不同类别的样本分开,同时使得两个点集(两个点集中的支持向量点) 到此平面的最小距离最大,###使得两个点集中的边缘点(支持向量点)到此平面的距离最大—从而使其对误差的容忍度最大###。之所以选择距离最大的超平面是因为距离最大的超平面具有最好的泛化性能。原创 2024-03-09 18:56:08 · 1497 阅读 · 1 评论 -
临近取样(KNN)算法基本原理&sklearn实现
KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,KNN算法是有监督学习中的分类算法,它看起来和Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。KNN的全称是K Nearest Neighbors,意思K个最近邻居。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。KNN核心功能是解决有监督的【分类问题】。KNN能够快速高效地解决建立在特殊数据集上的预测分类问题,但其不产生模型,因此算法准确性并不具备强可推广性。原创 2024-03-09 18:24:52 · 433 阅读 · 0 评论 -
决策树基本原理&sklearn实现
决策树算法是一种有监督学习算法,利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选,决策的目标。决策树( Decision Tree) 又称为判定树,是数据挖掘技术中的一种重要的【分类与回归方法】,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。决策树(Decision Tree)是一个树结构1. 结点和有向边组成2. 结点分为:内部结点 和 叶子结点。原创 2024-03-09 18:09:27 · 615 阅读 · 0 评论 -
逻辑回归原理&skearn简单实现
Logistic 不应该翻译成“逻辑”,因其语义来自Logarithm:对数,这也更体现了Logistic Regression的本质。accuracy_score函数接受两个参数,分别是预测标签和真实标签,返回一个准确率的浮点数值。与线性回归不同的是应用的模型不同与评估模型好坏的函数不同,且这两者均为sklearn提供好的。逻辑回归的本质是将线性回归进行一个变换,该模型的输出变量范围始终在 0 和 1 之间。理解“逻辑回归”的名字,需要拆开理解,拆成两部分:“逻辑”和“回归”逻辑函数在逻辑回归中为。原创 2024-03-09 12:04:13 · 230 阅读 · 0 评论 -
简单线性回归原理&sklearn简单实现
有时分类问题也可以转化为回归问题,例如的肺癌预测,我们可以用回归模型先预测出患肺癌的概率,然后再给定一个阈值, 例如50%,概率值在50%以下的人划为没有肺癌,50%以上则认为患有肺癌。当给定参数β0和β1的时候,画在坐标图内是一条直线(这就是“线性”的含义)当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。特征集对应的标签集y。原创 2024-03-09 11:53:40 · 525 阅读 · 0 评论 -
神经网络分类
而且其比较好的特点是用树状可以降低序列的长度,从 O(n)降低到 O(log(n)),熟悉数据结构的朋友都不陌生。和后文将提到的自动编码器Q相似,我们期待堆叠的RBF有数据重建能力,及输入一些数据经过RBF我们还可以重建这些数据,这代表我们学到了这些数据的重要特征将RBF堆叠的原因就是将底层RBF学到的特征逐渐传递的上层的RBF上,逐渐抽取复杂的特征。DBN最主要的特色可以理解为两阶段学习,阶段1用堆的RBM通过无监督学习进行预训练(Pretrain),阶段2用普通的前馈网络进行微调。原创 2024-03-09 11:15:23 · 562 阅读 · 0 评论 -
损失函数&代价函数&风险函数&目标函数
如:L(Y,f(x))=(Y-f(x))^2,这个函数就是【损失函数】,损失函数越小,代表模型拟合的越好,但是损失函数不是越小越好,太小容易出现过拟合的现象,从而降低模型的泛化能力。f(x)关于训练样本集的平均损失称为经验风险,即T(x)=1/N(L(Y1,f(x1))+..+L(YN,f(xn))),此时的目标就是求经验风险T(x)的最小化。目标函数:即最终的优化函数,min(T(x))+ʎJ(f),包含经验风险和结构风险。--损失函数的期望,可以认为是平均意义下的损失。结构风险的定义,就是。原创 2024-03-09 10:57:13 · 642 阅读 · 0 评论 -
机器学习过程&四要素
更新模型的参数值(经验),以优化处理任务的指标表现,最终学习出较优的模型,并运用模型对数据进行分析与预测以完成任务。因此,可以通过优化算法(如梯度下降算法、牛顿法等)有限次迭代优化模型参数,尽可能降低损失函数的值,获得较优参数。有了极大化降低损失函数为目标,第一反应通常是求解损失函数的最小值以获得最优的模型参数。模型(机器学习模型)简单来说就是,学习数据特征和标签的关系或者学习数据特征内部的规律。(即假设要学习的模型属于某个函数的集合,也称为假设空间),通过。好的模型:预测值和实际值之间的误差尽可能的小。原创 2024-03-09 10:42:35 · 527 阅读 · 0 评论