xgboost原理分析以及实践

摘要 本文在写完GBDT的三篇文章后本来就想写的,但一直没有时间,终于刚好碰上需要,有空来写这篇关于xgboost原理以及一些实践的东西(这里实践不是指给出代码然后跑结果,而是我们来手动算一算整个xgboost流程) 由于网上已经许多优秀的文章对xgboost原理进行了详细的介绍,特别是xgb...

2018-03-10 00:44:28

阅读数 5278

评论数 27

算一算-Word2Vec(2)

摘要: 上一篇文章里,我们详细的介绍了Word2Vec下SkipGram的层级SoftMax的计算流程,在这篇文章里,我们将介SkipGram下的Negative Sampling的计算流程。 训练参数 和上篇文章一样,我们使用同样的参数以及训练语料,具体如下: 训练语料如下: ...

2018-07-02 00:25:25

阅读数 559

评论数 0

算一算-Word2Vec

摘要 在前面的文章里面已经非常粗略的介绍过Word2Vec的原理,因为网上关于W2V的学习材料已经足够多了,写的也非常的好。但是大部分的文章也是只是介绍了整个W2V的原理,对于里面一些计算的细节,似乎并没有文章分析,另一方面,可能对于部分人来说,读完了原理之后非常想有一个真真切切的例子把整个Wo...

2018-06-24 23:57:20

阅读数 738

评论数 0

FM学习记录

摘要: 本文将要介绍一个在推荐、CTR中很常见的模型,FM(Factorization Machines)。 前言 我们首先回忆一下在推荐或者CTR预估的场景下我们经常用的模型是LR。具体来说我们熟悉的LR即如(0)式。 ŷ =w1x1+w2x2+....

2018-04-13 15:58:41

阅读数 561

评论数 1

MLE和MAP的小结

摘要 本文是关于MLE(最大似然估计)与MAP(最大后验概率)的一些自己学习的心得. (本文的重点在于对比MLE和MAP) 正文 1.MLE(最大似然估计) MLE简单的理解可以这样:假设我们手上有一批数据(样本),而且我们假设这些数据(样本)服从某个分布( 模型已知),但是参数...

2018-04-09 20:54:52

阅读数 1139

评论数 2

优化算法-总结2

摘要: 之前写过一篇关于常见优化算法的总结,但是当时由于时间的关系,没有做太多细节的总结。这篇文章结合上一篇文章,做更加细节的总结。 梯度下降法 在优化算法里面,梯度下降法是最为核心的一个算法,我们熟知,所谓的梯度下降法就是形如下式的式: wt:=wt−1−λ∂L∂w(0)(0)wt:...

2018-03-14 23:20:20

阅读数 562

评论数 0

AdaBoost简单总结

摘要: 继前面的gbdt,xgboost,这里是关于另外一个很有名的boosting算法,Adaboost,Ada是Adaptive的缩写(此外,有一种优化算法adagrad,自适应梯度下降也是用的adaptive缩写)。 同时由于网上对Adaboost的介绍的资料也很充足。在李航《统计学习方...

2018-03-13 14:38:06

阅读数 635

评论数 0

SVD与PCA的问题

摘要: 继上一篇文章对PCA分析后,这篇文章将介绍一个每提及PCA时,都会提到的名字SVD。 SVD是什么? SVD,奇异值分解。是属于矩阵分解里面的一种方法。 在谈论SVD之前,其实有必要回忆另外的一种很常用的矩阵分解。 可以看到,对于任意的n×n的对称矩阵A,都存在A=VDV...

2018-03-06 21:03:18

阅读数 1020

评论数 2

PCA学习记录

摘要: 本文主要讨论的对象是PCA(主成分分析)。 PCA是什么? PCA(主成分分析)在机器学习中的应用很广泛,通常PCA可以用来对数据进行降维,或者说将数据从高维的空间映射到低维的空间。简单来说,所谓的降维其实就是这么一个过程: 假设原始数据有nnn个样例,mmm个特征,也就是n×...

2018-03-06 14:56:05

阅读数 431

评论数 0

二分查找算法

摘要 二分查找,一个很经典的算法。但是真正理解透彻这个算法却不容易。下面记载一点自己学习二分查找的心得。 参考 正文: 二分查找有N多种写法,有各种各样的形式,选一种合适自己,自己能够理解记住的才是最好的。下面分享一个我比较赞的版本。 对于最最最原始的二分查找,即给出一个Key,查找...

2018-01-31 15:51:42

阅读数 2876

评论数 0

排序算法总结

摘要:本文是对常见的排序算法进行总结和分析,也是自己在找工作经常被问到的问题的一些总结。排序算法稳定性的定义:假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,ri=rj,且ri在rj之前,而在排序后的序列中,ri仍在rj之前,则称这种...

2018-01-30 17:03:07

阅读数 477

评论数 0

GBDT原理与实践-多分类篇

摘要: GBDT-分类 GBDT-回归 前面两篇文章已经详细介绍了在回归和分类下的GBDT算法。这一篇文章将最后介绍一个多分类任务的GBDT。其过程和二分类的GBDT类似,但是有一个地方有很大的不同,下文将详细的介绍。 正文: 下图是Friedman在论文中对GBDT多分类给出的伪代...

2018-01-29 22:08:16

阅读数 14561

评论数 57

GBDT原理与Sklearn源码分析-分类篇

摘要: 继上一篇文章,介绍完回归任务下的GBDT后,这篇文章将介绍在分类任务下的GBDT,大家将可以看到,对于回归和分类,其实GBDT过程简直就是一模一样的。如果说最大的不同的话,那就是在于由于loss function不同而引起的初始化不同、叶子节点取值不同。 正文: GB的一些基本原...

2018-01-29 14:06:42

阅读数 18274

评论数 36

GBDT原理与Sklearn源码分析-回归篇

摘要: 本文将非常详细的介绍GBDT(Gradient Boosting Decision Tree)的原理以及Sklearn里面具体是如何实现一个GBDT的。本次内容将分为两篇文章,一篇是GBDT用于回归,一篇是GBDT用于分类任务。虽然两者其实本质是一样的,只是loss function不同...

2018-01-28 13:28:40

阅读数 18720

评论数 28

RNN-LSTM-GRU学习笔记

摘要: 本文用于总结整个RNN的学习过程以及学习资料。 RNN 1.下文是rnn利用Bptt的训练的推导过程。 RNN与bptt推导过程 2.rnn一些基本概念以及问题分析 参考文章-1 RNN中为什么要采用tanh而不是ReLu作为激活函数? 常见问题: 1.RNN是什...

2018-01-23 12:15:39

阅读数 614

评论数 0

RNN-bptt简单推导

摘要: 在前面的文章里面,RNN训练与BP算法,我们提到了RNN的训练算法。但是回头看的时候在时间的维度上没有做处理,所以整个推导可能存在一点问题。 那么,在这篇文章里面,我们将介绍bptt(Back Propagation Through Time)算法如在训练RNN。 关于b...

2018-01-22 17:00:30

阅读数 1712

评论数 1

BP算法直观解释

摘要: 经过前面3篇文章的BP推导,相信大家对Bp的推导应该不陌生了,今天我们尝试展开我们推导得到的公式,来看看能否得到一个直观的解释。 在BP算法心得体会一文中,我们推导得到多层神经网络的误差信号的公式,具体如下:(假设损失函数EE为均方误差) 对于输出层: δ(o)k=(ok−...

2018-01-17 18:24:44

阅读数 404

评论数 0

BP算法推导-softmax层+交叉熵(logloss)

摘要: 在之前的两篇文章中RNN训练与BP算法,BP算法心得体会都是在具体在讲bp算法在神经网络里面的推导。两篇文章都没有讲过和softmax相关的东西。而softmax作为分类任务里面重要的一层,所以打算本篇文章介绍一下softmax层。另外,一致沿用的损失函数都是均方误差,所以借这个机会...

2018-01-17 17:00:14

阅读数 2097

评论数 0

RNN训练与BP算法

摘要: 本文主要讲述的RNN(循环神经网络)在训练过程中BP算法的推导。 在阅读本文之前希望读者看过我的另一篇文章BP算法心得体会。因为大部分的思路沿用的就是这篇文章的思路。 参考文章: 数学推导-1 数学推导-2 更新-2018-01-23: 之前写完这篇文章之后,回头看了...

2018-01-16 22:18:34

阅读数 1934

评论数 2

BP算法心得体会

摘要: 关于BP算法(误差反向传播)网上的学习、参考资料已经有很多了。每篇文章都差不多,都是在阐述BP的数学原理或者实践。本篇文章其实也和网上大部分文章一样,但从一个初学者的角度来分享学习这个算法的过程的一些体会。 参考资料: 知乎-BP算法 清晰的数学推导 预先定义: 网上许...

2018-01-15 12:12:13

阅读数 1097

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭