机器学习
北冥有小鱼
这个作者很懒,什么都没留下…
展开
-
为什么L1正则化导致稀疏解
一、从数据先验的角度首先你要知道L1范式和L2范式是怎么来的,然后是为什么要把L1或者L2正则项加到代价函数中去.L1,L2范式来自于对数据的先验知识.如果你认为,你现有的数据来自于高斯分布,那么就应该在代价函数中加入数据先验P(x),一般由于推导和计算方便会加入对数似然,也就是log(P(x)),然后再去优化,这样最终的结果是,由于你的模型参数考虑了数据先验,模型效果当然就更好.哦对了,如果你...原创 2018-09-25 20:13:41 · 11938 阅读 · 18 评论 -
RF、GBDT、XGBoost面试级整理
转自:https://blog.csdn.net/qq_28031525/article/details/70207918 RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关...转载 2018-07-30 16:00:36 · 397 阅读 · 0 评论 -
深度学习: 卷积核(滤波器)为什么都是奇数
卷积核一般都把size设为奇数,主要有以下两个原因:1.保证锚点(卷积核的中心)刚好在中间,方便以模块中心为标准进行滑动卷积。2.保证了padding时,图像的两边依然相对称...转载 2018-07-30 14:56:39 · 3041 阅读 · 0 评论 -
决策树、SVM、AdaBoost方法的比较
决策树模型在真实世界中也应用场景在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。引用连接: 信贷方面的应用 电商推荐系统 这个模型的优势是什么? 决策树易于实现和理解;对于决策树,数据的准备工作一般比较简单;能够同时处理多种数据类型给定一个决策树模型,可以根据产生的决策树推出相应的...转载 2018-07-26 15:28:34 · 3469 阅读 · 0 评论 -
数据清洗之缺失值处理
转自: https://blog.csdn.net/s2638358892/article/details/77529008?locationNum=2&fps=1 本文参考了多篇CSDN、知乎以及百度的文章,如果侵犯了您的权益,请及时联系,这是自己写的第一篇博客,有很多不足之处,请原谅。文章将常见的自己能理解的一些缺失值的处理方法以及方法的优缺点做了简单介绍。其中,多...转载 2018-07-15 15:50:33 · 7501 阅读 · 0 评论 -
决策树问题总结
转自:https://www.jianshu.com/p/fb97b21aeb1d 深入理解决策树 面试问题1:什么是决策树? 答:决策树是一种分类和回归的基本模型,可从三个角度来理解它,即:一棵树if-then规则的集合,该集合是决策树上的所有从根节点到叶节点的路径的集合定义在特征空间与类空间上的条件概率分布,决策树实际上是将特征空间划分成了互不相交的单元,每个从根到叶的路径对应...转载 2018-07-14 16:12:02 · 6144 阅读 · 0 评论 -
数据归一化
    机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。...转载 2018-07-13 20:58:29 · 328 阅读 · 0 评论 -
2018 年大疆机器学习算法工程师春季提前批笔试题
一、单项选择题SVM 分类和深度学习分类 B. SVM 只能应用于线性分类     错误,SVM 可以应用于线性分类和非线性分类问题,取决于核函数的选取C. SVM 是凸问题,深度学习都是非凸问题     正确,深度学习算法的目标函数,几乎全都是非凸的。L1 和 L2 正则化区别原创 2018-07-06 14:56:01 · 1426 阅读 · 0 评论 -
机器学习性能评估指标(精确率、召回率、ROC、AUC)
实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。 P = TP/(TP+FP)而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。 ...转载 2018-07-18 15:44:17 · 570 阅读 · 0 评论 -
EM算法
EM算法(Expectation Maximization Algorithm)是一种迭代算法,它是解决含隐变量(latent variable)情况下的参数估计问题,而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,虽然通过梯度下降等优化方法也可以求解,但如果隐变量个数太多,将会带来指数级的运算。 EM算法是一种迭代优化策略,由于它的计算方法中每...原创 2018-07-05 16:49:19 · 1389 阅读 · 0 评论 -
LR(逻辑回归) 为什么使用sigmoid函数
上图为sigmoid函数的形式 选择sigmoid 的原因想从两方面来说: 1、 Sigmoid 函数自身的性质sigmoid 函数连续,单调递增sigmiod 函数关于(0,0.5) 中心对称对sigmoid函数求导 计算sigmoid函数的导数非常的快速 即sigmoid是伯努利分布的指数族形式...转载 2018-07-30 20:54:59 · 4517 阅读 · 0 评论 -
中文分词原理及分词工具介绍
转自:https://blog.csdn.net/flysky1991/article/details/73948971本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chi...转载 2018-07-31 11:00:37 · 29476 阅读 · 2 评论 -
特征选择方法
转载自:https://blog.csdn.net/muyimo/article/details/79300596 链接:https://www.zhihu.com/question/29316149/answer/110159647 特征工程到底是什么? - 城东的回答 目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1....转载 2018-09-05 18:47:07 · 4724 阅读 · 0 评论 -
深度学习激活函数优缺点分析
转自:https://blog.csdn.net/not_guy/article/details/78749509 在深度学习中,信号从一个神经元传入到下一层神经元之前是通过线性叠加来计算的,而进入下一层神经元需要经过非线性的激活函数,继续往下传递,如此循环下去。由于这些非线性函数的反复叠加,才使得神经网络有足够的capacity来抓取复杂的特征。为什么要使用非线性激活函数?答:如...转载 2018-09-02 15:40:46 · 943 阅读 · 0 评论 -
为什么梯度的负方向是局部下降最快的方向
转自:https://blog.csdn.net/UFv59to8/article/details/79227253 ...转载 2018-08-23 13:56:42 · 432 阅读 · 0 评论 -
对于BN层的理解
1、BN层为什么可以防止梯度消失Batchnorm是深度学习发展以来提出的最重要的成果之一了,目前已经被广泛的应用到了各大网络中,具有加速网络收敛速度,提升训练稳定性的效果,Batchnorm本质上是解决反向传播过程中的梯度问题。batchnorm全名是batch normalization,简称BN,即批规范化,通过规范化操作将输出信号x规范化保证网络的稳定性。 具体的batchnorm...原创 2018-08-22 20:01:31 · 13018 阅读 · 0 评论 -
数据预处理方法
原文:https://blog.csdn.net/Anne999/article/details/69261592?locationNum=3&fps=1数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。一、数据清洗1.缺失值处理 处理缺失值分为三类:删除记录、数据补差和不处理。 数据补插方法: 1. 补插均值/中位数/众数 2. 使用固定值 ...原创 2018-08-22 16:42:02 · 8164 阅读 · 0 评论 -
GBDT与XGBOOST、RF
一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostingRegressor为GBDT的回归类,两者的参数类型相同,我们把参数分为两类,第一类是Boosti...转载 2018-08-19 17:24:11 · 818 阅读 · 0 评论 -
LSTM原理及实现
转自:https://blog.csdn.net/gzj_1101/article/details/79376798 LSTM原理及实现 ...转载 2018-08-01 16:18:43 · 9753 阅读 · 0 评论 -
主成分分析PCA
降维的必要性1.多重共线性–预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的:1....原创 2018-07-12 11:41:06 · 323 阅读 · 0 评论 -
GBDT+LR
GBDT和LR的融合在广告点击率预估中算是发展比较早的算法,原理是通过GBDT组合的特征作为LR的输入 特征组合的介绍见上一篇博客:https://blog.csdn.net/qq_26598445/article/details/809987601、背景目前工业界中用的较多的是LR,LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间,最后输出是一个...原创 2018-07-11 12:49:01 · 2147 阅读 · 0 评论 -
机器学习算法优缺点总结
一、最近邻算法(KNN)概述 KNN将测试集的数据特征与训练集的数据进行特征比较,然后算法提取样本集中特征最近邻数据的分类标签,即KNN算法采用测量不同特征值之间的距离的方法进行分类。KNN的思路很简单,就是计算测试数据与类别中心的距离。KNN具有精度高、对异常值不敏感、无数据输入假定、简单有效的特点,但其缺点也很明显,计算复杂度太高。要分类一个数据,却要计算所有数据,这在大数据的...原创 2018-06-30 15:16:40 · 14557 阅读 · 0 评论 -
随机森林算法
转载自https://blog.csdn.net/qq547276542/article/details/78304454 最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看...原创 2018-06-29 16:06:33 · 2324 阅读 · 0 评论 -
关于拉格朗日乘子法和KKT条件
参考: https://blog.csdn.net/on2way/article/details/47729419转载 2018-06-17 16:31:35 · 310 阅读 · 0 评论 -
GBDT 详解
参考资料及博客: 李航《统计学习方法》 Gradient Boosting wiki GBDT理解二三事 GBDT(MART) 迭代决策树入门教程 | 简介转载自: https://blog.csdn.net/sb19931201/article/details/52506157 前言 For Xgboost:在前几篇笔记...原创 2018-06-29 11:01:01 · 8743 阅读 · 2 评论 -
决策树算法(上)
部分内容引用自:https://blog.csdn.net/HerosOfEarth/article/details/52347820引言:决策树(Decision Tree)是一种基本的分类与回归方法,本文主要讨论分类决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。...原创 2018-06-22 12:36:59 · 639 阅读 · 0 评论 -
Logistic回归原理与推导
(转)【机器学习笔记1】Logistic回归总结(http://blog.csdn.net/dongtingzhizi/article/details/15962797) Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://...转载 2018-06-21 11:17:21 · 987 阅读 · 2 评论 -
ubuntu14.04+TensorFlow 环境搭建教程
tensorflow安装详细教程原创 2017-09-19 15:11:23 · 1867 阅读 · 1 评论 -
特征选择与特征组合
转自:https://segmentfault.com/a/1190000014799038 特征组合也叫特征交叉合成特征 (synthetic feature)和特征组合(Feature Crosses)不太一样,特征交叉是特征组合的一个子集。合成特征 (synthetic feature)一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。通过标准化或缩放单独创建的特征...原创 2018-07-11 12:32:42 · 17146 阅读 · 0 评论 -
鞍点 Hessian矩阵
转https://blog.csdn.net/baidu_27643275/article/details/79250537 长期以来,人们普遍认为,神经网络优化问题困难是因为较大的神经网络中包含很多局部极小值(local minima),使得算法容易陷入到其中某些点。到2014年,一篇论文《Identifying and attacking the saddle point problem...转载 2018-07-04 11:56:41 · 10966 阅读 · 1 评论 -
详解机器学习中的梯度消失、爆炸原因及其解决方法
转载自: https://blog.csdn.net/qq_25737169/article/details/78847691本文主要深入介绍深度学习中的梯度消失和梯度爆炸的问题以及解决方案。本文分为三部分,第一部分主要直观的介绍深度学习中为什么使用梯度更新,第二部分主要介绍深度学习中梯度消失及爆炸的原因,第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。 其中,梯度消失爆炸...转载 2018-07-03 20:16:21 · 209 阅读 · 0 评论 -
如何处理训练样本不均衡的问题
转:https://blog.csdn.net/tingfeng96/article/details/72854874 如何处理训练样本不均衡的问题 原文:https://www.quora.com/In-classificati...转载 2018-07-03 20:03:27 · 2371 阅读 · 0 评论 -
SVM 合页损失函数
SVM的损失函数是什么?怎么理解原创 2018-07-03 17:02:51 · 6060 阅读 · 0 评论 -
偏差和方差
转自:https://blog.csdn.net/witnessai1/article/details/52745311 参考一:在A Few Useful Thingsto Know about Machine Learning中提到,可以将泛化误差(gener-alization error)分解成bias和variance理解。 Bias: a learner’s ...原创 2018-07-09 16:23:56 · 250 阅读 · 0 评论 -
Adaboost 算法的原理与推导
转载自 :https://blog.csdn.net/v_july_v/article/details/407187990 引言    一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过...转载 2018-06-27 16:22:27 · 229 阅读 · 0 评论 -
朴素贝叶斯
带你搞懂朴素贝叶斯分类算法带你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1&nbs...转载 2018-06-20 15:38:56 · 196 阅读 · 0 评论 -
决策树算法(下)
内容转载自 https://blog.csdn.net/herosofearth/article/details/52425952前言上篇博文已经介绍了ID3、C4.5生成决策树的算法。由于上文使用的测试数据以及建立的模型都比较简单,所以其泛化能力很好。但是,当训练数据量很大的时候,建立的决策树模型往往非常复杂,树的深度很大。此时虽然对训练数据拟合得很好,但是其泛化能力即预测新数据的能...原创 2018-06-26 16:45:37 · 498 阅读 · 0 评论 -
K-means聚类算法
K-means聚类算法属于无监督学习,样本不带标签。其核心思想:由用户指定k个初始质心(initial centroids),以作为聚类的类别(cluster),重复迭代直至算法收敛。算法流程为:随机在图中取K个质心,即有K类。然后对剩余的每个点对每一个质心求距离,并将其归类为距离最近的质心,即找到其所属的类对每一类重新求质心,新质心为这一类的中心点。重复2、3步骤,直到所有点所属的类原创 2017-09-19 20:17:17 · 601 阅读 · 0 评论