机器学习算法
沫嫣子
这个作者很懒,什么都没留下…
展开
-
【机器学习算法】Logistic回归计算过程的推导
(很多讲逻辑回归的文章都没有给出详细的推导,只是列出最后的计算公式,今天在网上看到一篇解释得非常详细的文章,赶紧转载一下:【机器学习笔记1】Logistic回归总结(http://blog.csdn.net/dongtingzhizi/article/details/15962797) 作者说"未经允许,不得转载",我这里先冒犯了,如果觉得不合适,请告知。) Logis...转载 2019-02-24 22:44:37 · 329 阅读 · 0 评论 -
FM算法及FFM算法
转自:http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlhttp://blog.csdn.net/google19890102/article/details/45532745https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/634...转载 2019-03-30 18:08:49 · 758 阅读 · 0 评论 -
L1正则化与L2正则化的理解
1. 为什么要使用正则化 我们先回顾一下房价预测的例子。以下是使用多项式回归来拟合房价预测的数据: 可以看出,左图拟合较为合适,而右图过拟合。如果想要解决右图中的过拟合问题,需要能够使得x3,x4x3,x4的参数θ3,θ4θ3,θ4尽量满足θ3≈0,θ4≈0θ3≈0,θ4≈0。 而如何使得θ3,θ4θ3,θ4尽可能接近00呢?那就是对参数施一惩罚项。我们...转载 2019-03-13 16:36:14 · 476 阅读 · 0 评论 -
局部线性嵌入(LLE)原理总结
https://www.cnblogs.com/pinard/p/6266408.html局部线性嵌入(Locally Linear Embedding,以下简称LLE)也是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。下面我们就对L...转载 2019-03-21 15:21:20 · 1127 阅读 · 0 评论 -
scikit-learn 梯度提升树(GBDT)调参小结
转:http://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1.scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostin...转载 2019-03-12 17:15:27 · 172 阅读 · 0 评论 -
使用SVM模型进行分类预测时的参数调整技巧
SVM是一种在小样本低维度下比较适用的非线性建模方法,相对比其他常用的算法(比如决策树),模型根据调参的好坏所表现的性能波动非常大。当我们决定使用SVM模型,模型的效果非常差,甚至还不如传统的线性模型的时候,很有可能使我们设置的参数范围不合理。数据分析以下是一些个人的调参经验:一:如何判断调参范围是否合理正常来说,当我们参数在合理范围时,模型在训练集和测试集的准确率都比较高;当模型在训练...原创 2019-03-12 16:43:45 · 7825 阅读 · 0 评论 -
SVM 的核函数选择和调参
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/aliceyangxi1987/article/details/80617649本文结构:1. 什么是核函数2. 都有哪些 & 如何选择3. 调参1. 什么是核函数核函数形式 K(x, y) = <f(x), f(y)>,其中 x, y 为 n 维,f...转载 2019-03-12 16:03:47 · 5369 阅读 · 0 评论 -
从SNE到t-SNE再到LargeVis
0x00 前言本文谢绝转载,如有需要请联系bindog###outlook.com,###换成@数据可视化是大数据领域非常倚重的一项技术,但由于业内浮躁的大环境影响,这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中,简陋的可视化效果太丑,过于华丽的可视化效果只能忽悠忽悠外行,而给内行的感觉就是刻意为之、华而不实。曾几何时,可视化技术不过是一种数据分析的手段罢了。惭愧的...转载 2019-03-19 18:57:58 · 999 阅读 · 0 评论 -
随机森林如何评估特征重要性
序集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁棒性更好。随机森林中进行特征重要性的评估思想为:判断每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。RF评估特征重要性--基于基尼指数基尼指数计算方法:k 代表 k 个类别...转载 2019-03-11 11:56:33 · 9286 阅读 · 0 评论 -
不平衡学习(Imbalanced learning)
数据不平衡在很多真实场景下,数据集往往是不平衡的。也就是说,在数据集中,有一类含有的数据要远远多于其他类的数据(类别分布不平衡)。在这里,我们主要介绍二分类中的类别不平衡问题,对于多类别的不平衡只做简单的介绍。考虑一个简单的例子,假设我们有一个关于医院患者的数据集(里面包含很多患者的图片),我们把其中患有癌症的病人标记为正例,把健康的患者标记为负例。众所周知,健康的人的数量肯定远远大于癌症患...转载 2019-03-14 11:30:11 · 825 阅读 · 0 评论 -
AUC的本质
AUC的本质:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。理解二分类的准确率为100%那么你就可以找到一个很好的阈值,将这两类分割开则正类的预测概率永远比负类的大也就是AUC=1你想一下,如果这个可能性为100%的话你计算出来的正样本的这个值(概率)比负样本(概率)大的可能性(其实也是概率)这里是说给你一个正样本和一个负样本就是我们比如logist...原创 2019-03-14 10:19:42 · 1794 阅读 · 0 评论 -
SVM理解与参数选择(kernel和C)
大部分资料都在讲SVM的kernel等看似高大上的东西,却忽略了SVM的模型表达式这一关键,造成大家看SVM资料觉得云里雾里的感觉。本文舍末求本,从SVM的模型理解开始,带大家理解SVM的基本思想,理解各个参数对SVM的性能影响。直观理解SVM以二维平面上的分类为例,下面给出了不同的分类可能,哪个才是最优的分类呢?可以看出第一种分类方法是最好的,为什么呢?因为它的分类平面到两类边界的...转载 2019-03-03 17:55:25 · 2193 阅读 · 0 评论 -
scikit-learn 梯度提升树(GBDT)调参小结
转:http://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostin...转载 2019-02-26 18:16:50 · 135 阅读 · 0 评论 -
推荐系统学习
https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6340129.htmlhttps://zhuanlan.zhihu.com/p/59528983https://zhuanlan.zhihu.com/p/45679290https://zhuanlan.zhihu.com/p/58160982https://zhuanlan.z...原创 2019-03-30 23:49:33 · 174 阅读 · 0 评论