![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 65
1.02^365的成长裂变
每天比别人努力一点,坚持下去就是裂变的威力~
展开
-
[机器学习实战] 机器学习基础
1. 机器学习的主要任务:(分类、回归)有监督学习、(聚类、密度估计)无监督学习2. 如何选择合适算法:使用机器学习的目的;需要分析的数据是什么;——分类、回归、聚类还是密度估计,确定算法类型;特征选择,离散型还是连续型,是否有缺失,出现频率;3. 开发机器学习应用程序的步骤(1)收集数据(2)准备输入数据:规范格式(3)分析输入数据:查找异常值原创 2017-09-19 07:50:00 · 11226 阅读 · 0 评论 -
[机器学习] 特征工程总结
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 ...转载 2018-08-17 16:09:57 · 18949 阅读 · 0 评论 -
[机器学习] SVM原理及推导
0 由来在二分类问题中,我们可以计算数据代入模型后得到的结果,如果这个结果有明显的区别,这就说明模型可以把数据分开。那么,怎么表示“区别”这个词呢,拿最简单的二维问题来讲,“区别”可以是数据点分布在一条直线的两侧,而数据点代入方程后得到的结果符号是不同的,这就达到了分类的目的。 而SVM的思想也是这样,目的就是找到一个超平面,将数据点都正确地分在超平面的两侧。那么,又怎么表示这个“都正确”呢?可以...转载 2018-05-03 09:15:36 · 22132 阅读 · 0 评论 -
[机器学习] 机器学习中L1正则和L2正则的直观理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的...转载 2018-04-24 16:56:01 · 18838 阅读 · 0 评论 -
[机器学习] 常见机器学习算法及优缺点对比
在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。目录正则化算法(Regularization Algorithms)集成算法(Ensemble Algorithms)决策树算法(Decision Tree Algo...原创 2018-04-22 00:18:50 · 19466 阅读 · 0 评论 -
[机器学习] 常见优化方法:梯度下降/牛顿法/拟牛顿法/共轭梯度法
问题的形式化神经网络的学习过程可以形式化为最小化损失函数问题,该损失函数一般是由训练误差和正则项组成。误差项会衡量神经网络拟合数据集的好坏,也就是拟合数据产生的误差。正则项主要是通过给特征权重增加惩罚项而控制神经网络的有效复杂度,这样可以有效地控制过拟合问题。训练损失函数取决于神经网络中的自适应参数(偏置项和权重),我们很容易地将神经网络的权重重组合成一个n维权重向量w,而训练损失就是以这些权重为...转载 2018-04-03 22:28:32 · 20293 阅读 · 0 评论 -
[机器学习] L1正则与L2正则
范数(norm)数学上,范数是一个向量空间或矩阵上所有向量的长度和大小的求和。简单一点,我们可以说范数越大,矩阵或者向量就越大。范数有许多种形式和名字,包括最常见的:欧几里得距离(Euclideandistance),最小均方误差(Mean-squared Error)等等。大多数时间,你会在等式中看见范数像下面那样:||x||,x可以是一个向量或者矩阵。例如一个向量其欧几里得范数为:即向量a的模...转载 2018-04-03 22:26:47 · 19066 阅读 · 0 评论 -
[机器学习] 详解朴素贝叶斯方法
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能...转载 2018-04-16 11:20:25 · 18982 阅读 · 0 评论 -
[机器学习] 集成学习总结
写在前面看了不少集成学习的资料,很多算法都有相似之处,看了之后没有进行比较和整理,太容易忘记了,所以这篇来做个笔记。集成学习,(就我目前所学习到的)主要可以分为三大类,Boosting, Bagging, Stacking。Boosting的代表有AdaBoost, gbdt, xgboost。而Bagging的代表则是随机森林 (Random Forest)。Stacking 的话,好像还没有著...转载 2018-04-15 23:30:16 · 19331 阅读 · 0 评论 -
[机器学习] 欠拟合/过拟合及解决方法
在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。(之前搜了很多有的博客,讲的都不太全,因此我重新整理总结了一遍,同时加入了自己的理解,方便自己和后来人查阅)首先就是我们在进行模...转载 2018-03-26 17:57:01 · 20577 阅读 · 0 评论 -
[机器学习] 机器学习中训练数据不平衡问题处理方案汇总
在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset 当你在对一个类别不均衡的数据集进行分类时...转载 2018-03-26 15:49:47 · 20435 阅读 · 0 评论 -
[机器学习实战] 线性模型与非线性模型的区别
在机器学习的回归问题中,线性模型和非线性模型都可以去对曲线进行建模,那么线性模型和非线性模型有什么区别呢?其实,线性模型和非线性模型的区别并不在于能不能去拟合曲线。下面我们来详细介绍一下它们两个的区别。线性回归的等式线性回归需要一个线性的模型。这到底意味着什么呢?一个模型如果是线性的,就意味着它的参数项要么是常数,要么是原参数和要预测的特征之间的乘积加和就是我们要预测的值。Response = c...原创 2018-03-04 13:35:42 · 6964 阅读 · 0 评论 -
[机器学习] 随机森林与GBDT
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能会...转载 2017-09-10 20:54:26 · 3746 阅读 · 0 评论 -
[机器学习实战] 决策树
1. 决策树的优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的确实不敏感,可以处理不相关特征数据缺点:可能会产生过渡匹配问题使用数据类型:数值型和标称型2. 决策树的一般流程(1)收集数据:可以使用任何方法(2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化(3)分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期(4)原创 2017-10-10 15:17:37 · 10947 阅读 · 0 评论 -
[机器学习实战] k-近邻算法
原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k各最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次原创 2017-09-20 13:20:48 · 3779 阅读 · 0 评论 -
[机器学习]模型调参
一、问题描述当我们在处理图像识别或者图像分类或者其他机器学习任务的时候,我们总是迷茫于做出哪些改进能够提升模型的性能(识别率、分类准确率)。。。或者说我们在漫长而苦恼的调参过程中到底调的是哪些参数。。。所以,我花了一部分时间在公开数据集 CIFAR-10 [1] 上进行探索,来总结出一套方法能够快速高效并且有目的性地进行网络训练和参数调整。CIFAR-10 数据集有 60000 张图片,每...转载 2019-07-22 20:53:54 · 58807 阅读 · 0 评论