machine learning
2h4n9y1m1n9
这个作者很懒,什么都没留下…
展开
-
机器学习项目清单
该清单可以帮助你完成你的机器学习项目。主要有8个步骤:1、架构问题,关注蓝图。2、获取数据。3、研究数据以获取灵感。4、准备数据以更好地将低层模型暴露给机器学习算法。5、研究各种不同的模型,并列出最好的模型。6、微调模型,并将其组合为更好的解决方案。7、提出解决方案。8、启动、监视、维护系统。架构问题,关注蓝图1、用商业术语定义目标。2、方案如何使...原创 2019-12-17 18:57:17 · 153 阅读 · 0 评论 -
[机器学习]------特征选择常用方法整理
https://blog.csdn.net/SecondLieutenant/article/details/80693765原创 2019-09-18 15:15:58 · 147 阅读 · 0 评论 -
方差的偏差的区别
想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:子弹基本上都打在队伍经过的一棵树上了,连在那棵树旁边等兔子的人都毫发无损,这就是方差小(子弹打得很集中),偏差大(跟目的相距甚远)。 子弹打在了树上,石头上,树旁边等兔子的人身上,花花草草也都中弹,但是敌军安然无恙,这就是方差大(子弹到处都是),偏差大(同1)。 子弹打死了一部分敌军,但是也打...原创 2019-09-18 11:11:19 · 121 阅读 · 0 评论 -
机器学习解决应用问题的一般步骤(笔记)
第一步:识别问题 首先明确这个问题是分类还是回归,通过问题和数据就可以判断出来,数据由X和label列构成,label可以一列也可以多列,可以是二进制也可以是实数。当它为二进制时,问题属于分类,当它为实数时,问题属于回归。第二步:分离数据 把数据分离成Training Data和Validation Data来检验这个模型的表现,不然的话,通过各种调节参数,模型...原创 2019-04-08 13:20:54 · 1476 阅读 · 0 评论 -
机器学习中的多类别分类和多标签分类
多类别分类(Multiclass Classification)一个样本属于且只属于多个类中的一个,一个样本只能属于一个类,不同类之间是互斥的。多标签分类(Multilable classification)多标签分类又称多标签学习、多标记学习,不同于多类别分类,一个样本可以属于多个类别(或标签),不同类之间是有关联的。sklearn.multiclass 提供了很多机器学习...原创 2019-04-04 13:30:20 · 6366 阅读 · 0 评论 -
神经网络与遗传算法
神经网络是用来处理非线性关系的,输入和输出之间的关系可以确定(存在非线性关系),可以利用神经网络的自我学习(需要训练数据集用明确的输入和输出),训练后权值确定,就可以测试新的输入了。遗传算法是用来解决最值问题的,生物进化、优胜略汰。更灵活没有限制,唯一的难处就是编码染色体和评价函数的选择。两者的结合可以从两个方面确定:第一种:辅助结合方式:用GA对数据进行预处理,然后用...转载 2018-12-27 13:45:10 · 5473 阅读 · 0 评论 -
adaboost和GBDT
adaboost提高那些被前一轮分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注。第二,adaboost采取加权多数表决的方法,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。 GBDT中的DT是回归决策树,...原创 2018-10-08 11:02:28 · 446 阅读 · 0 评论 -
逻辑回归 vs 决策树 vs 支持向量机
逻辑回归逻辑回归非常便利并且很有用的一点就是,它输出的结果并不是一个离散值或者确切的类别。相反,你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数,并得到一个阈值,然后使用最符合你业务问题的方式进行分类输出。逻辑回归的优点:便利的观测样本概率分数; 已有工具的高效实现; 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解...转载 2018-09-02 14:44:30 · 540 阅读 · 0 评论 -
常见的几种最优化方法(梯度下降法、牛顿法、共轭梯度法)
对批量梯度下降法和随机梯度下降法的总结:批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况。 关...转载 2018-09-02 12:46:12 · 6149 阅读 · 0 评论 -
Bagging和Boosting概念及区别
原文出处:http://www.cnblogs.com/liuwu265/p/4690486.htmlBagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方式。即将弱分类器组装成强分类器的方法。1、BaggingBagging即套袋法,其算法过程如下:A)从原始样本集中抽取训练集。每轮从原始...转载 2018-08-29 11:50:12 · 237 阅读 · 0 评论 -
机器学习中的回归(Regression)与分类(classification)问题
原文地址:https://blog.csdn.net/wspba/article/details/61927105分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。1、Logistic Regression 和 Linear Regression:Linear Regression: 输出一个标量wx+b,这个值是连续值,所以可以用来处理回归问题。 Logistic Re...转载 2018-08-28 15:39:18 · 910 阅读 · 0 评论 -
详解机器学习中的梯度消失、爆炸原因及其解决方法
转载:https://blog.csdn.net/qq_25737169/article/details/78847691前言本文主要深入介绍深度学习中的梯度消失和梯度爆炸的问题以及解决方案。本文分为三部分,第一部分主要直观的介绍深度学习中为什么使用梯度更新,第二部分主要介绍深度学习中梯度消失及爆炸的原因,第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。 其中,梯度消失爆炸的解决...转载 2018-06-27 15:00:55 · 302 阅读 · 0 评论 -
局部最小值和全局最小值
基于梯度得搜索是使用最为广泛得参数寻优方法。在此类方法中,我们从某些初始解出发,迭代寻找最优参数值。每次迭代中,我们先计算误差函数在当前点的梯度,然后根据梯度确定搜索方向。例如,由于负梯度方向是函数值下降最快的方法,因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为零,则已达到局部极小,更新量将为零,这意味着参数的迭代更新将在此停止。显然,如果误差函数仅有一个局部极小,...原创 2018-06-29 15:19:10 · 11805 阅读 · 2 评论 -
Batch Normalizatoin学习笔记
原文地址:https://blog.csdn.net/hjimce/article/details/50866313我们知道再神经网络训练之前,都需要对输入数据做一个归一化处理,那么具体为什么要归一化呢?归一化之后又什么好处呢?原因在于神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch梯度...转载 2018-06-05 14:19:07 · 545 阅读 · 0 评论 -
机器学习自测题知识点总结
1、余弦相似性:把两个物品得属性看成向量,那么这两个物品得余弦相似就是这两个向量夹角得余弦。余弦得定义如下: 例题: 甲、乙、丙三人去看了两场电影。 甲对A电影的评分是3,对B电影的评分是4。 乙对A电影的评分是5...原创 2018-06-05 11:17:36 · 311 阅读 · 0 评论 -
决策树学习概述
转载链接转载的一篇关于决策树的知识,感觉这篇比较容易理解。脑子太笨了。。基于树的学习算法在数据科学竞赛中相当常见。这些算法给预测模型赋予了准确性、稳定性以及易解释性。其中,决策树算法也是引人关注的「随机森林」算法的基础构造模块。本文介绍了决策树的概念和简单实现,使用生动的示例帮助理解,希望能够对你有所帮助。对于 ML 的入门者来说,决策树很容易上手。本教程将介绍:决策树是什么如何构建决策树使用 P...转载 2018-05-16 11:09:22 · 495 阅读 · 0 评论