- 博客(12)
- 收藏
- 关注
原创 逻辑回归与机器学习原理深度总结
动笔写这篇原理深度总结是因为拜读了July大神的支持向量机通俗导论,当时花了一下午时间细细读完觉得豁然开朗觉得SVM不再神秘,并顺手把那篇文章存成了PDF以便日后复习。我觉得那是一篇好文章,因为它非常系统化地总结了SVM,非常深入地介绍了数学细节以满足我这种喜欢寻根问底了解原理的人。网上讲机器学习的文章很多,但深入讲原理的很少,系统地将机器学习和统计知识结合起来的更少。大部分人(包括我)入门机...
2018-11-08 18:31:47 788
原创 不平衡数据集过(欠)采样后预测概率的调整
很多机器学习算法无法在不平衡样本上取得很好地效果,这是由于其损失函数在判定正负样本损失时没有考虑到样本不均衡导致的。比如逻辑回归的损失函数:这里没有加入正则项,但也可以看出对于正负样本预测错了的惩罚是一样的,当样本非常不均衡时,这个损失函数可能导致分类器输出结果全都是占比较大的样本:如99%都是正样本,1%是负样本,则学习出来的结果可能是不管扔进去什么数据,分类器一律预测为正样本,因为这样...
2018-11-07 14:10:17 4000 4
原创 GBDT原理解析:为什么说GBDT是拟合残差的梯度下降算法
写这篇博客是因为博主花了一天时间在网上找GBDT的原理解析,但发现所有介绍GBDT的文章都没有说清楚,尤其没有让博主明白为什么GBDT的每一步学习是基于之前的错误学习的,是在拟合残差。于是博主只好又花半天时间读了Friedman的原文的前半部分(后半部分开始介绍正则化、变量重要性定义和模拟实验了,没细看),感觉终于懂了80%-90%。博主觉得一定要把这个理解记下来,以便以后复习。本博客主要参考...
2018-08-09 17:02:59 11394 2
原创 机器学习实践——数据预处理总结
1,numerical features1)树结构的模型对数值变量的scale不敏感,线性模型,KNN和神经网络对scale敏感2)
2018-05-27 21:53:22 2017
原创 机器学习课堂笔记4
VC维的概念VC维对机器为什么可以学习的保证样本外误差和样本内误差、模型复杂度的关系在特定的VC维下,想要比较好的学习到模式所需要的数据量
2017-09-03 15:50:54 312
原创 机器学习课堂笔记3
机器为什么可以学习?hoeffding不等式,dichotomy, growth function, break point,growth function的上界,VC Bound,开始解决假设空间无限大时机器学习可行性的问题
2017-09-02 15:44:52 278
原创 机器学习课堂笔记2
不同机器学习的类别(从目标、输入区分)在假设集合有限的情况下,机器是可以通过数据样本来进行学习的,但假设集合H无限大时,机器学习可行性还未解决
2017-08-27 15:17:13 170
原创 机器学习课堂笔记1
在学习了台湾大学Husan-Tian Lin老师的课程后,将一些知识和自己的一些体会整理成笔记。机器学习基础课程中主要讲了四个部分:1,机器什么时候可以学习2,为什么机器可以学习3,机器怎么学习4,机器怎么样才能学得更好机器学习笔记1记录了何时可以进行机器学习,机器学习中的一些基本符号,和一个最简单的学习算法PLA的例子
2017-08-27 09:33:59 298
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人