![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
一米半
这个作者很懒,什么都没留下…
展开
-
如何通俗的解释交叉熵与相对熵?
https://www.zhihu.com/question/41252833转载 2017-09-03 15:08:21 · 637 阅读 · 0 评论 -
broadcasting在numpy中的使用
讲的很详细:https://blog.csdn.net/hongxingabc/article/details/53149655转载 2018-06-14 18:48:40 · 241 阅读 · 0 评论 -
logstic regression
李宏毅的ppt:http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/Logistic%20Regression%20(v3).pdf原创 2018-05-08 15:07:24 · 184 阅读 · 0 评论 -
RNN 技巧
target delay: 如下图,就是说输出比输入往后移动一些,多出来的输出可以让为0的输入对应。 这样相当于已经读了好几个输入我们决定我们第一个输出是什么,这是符合直觉的。 ...原创 2018-05-19 00:02:32 · 258 阅读 · 0 评论 -
一同打乱X和Y的方法
相当于打乱索引,然后按索引返回打乱顺序的X和Yp = np.random.permutation(range(len(X)))X,Y = X[p],Y[p]原创 2018-05-09 17:22:10 · 978 阅读 · 0 评论 -
adagrad ,RMSProp Momentum
adagrad: 对于每一个wtiwitw_i^t,都由前t-1对wiwiw_i的梯度和的平方加上本次对wiwiw_i梯度的平方再开根号。用这个值去除η。 缺点,随着update的次数增多,learning rate会变得特别小,最终导致提前结束训练。RMSProp: 对于α我们自己定义,0到1之间,越小也就越代表我们越相信当前derivative对loss的影响。这样解决了adag...原创 2018-05-09 12:04:37 · 276 阅读 · 0 评论 -
deep learning tips
dropout是为了防止过拟合,实在testing data上面效果不好时用的,而training data效果不好的时候不会考虑这个方法。原创 2018-05-09 10:46:17 · 229 阅读 · 0 评论 -
bias和variance
bias:相当于我们预测了很多点f∗f∗{f^*}的期望是f¯f¯\bar f离目标值f^f^\hat f的距离。 variance:f∗f∗{f^*}的方差,分布的越开方差越大。 他们之间的关系:当你的模型越简单,可能忽略其他因素,所以最后你的f¯f¯\bar f离f^f^\hat f越远,由于模型简单涉及的范围小,所以variance小。 当你的模型越复杂,f¯f¯\bar f离f^...原创 2018-05-01 12:57:41 · 174 阅读 · 0 评论 -
正则化注意事项
为什么要正则化,是为了等到更小的w,w越小x增大后y收到的影响越小,这也就意味曲线越平滑。 为什么我们倾向平滑的曲线,因为如果有noise混入我们的输入的时候,越平滑的曲线收到的影响越小。 在正则化的时候只考虑w,不考虑bias,因为bias不会影响曲线的平滑。...原创 2018-05-01 11:37:01 · 348 阅读 · 0 评论 -
奇异值分解 SVD 的数学解释
讲的很详细:https://blog.csdn.net/u010099080/article/details/68060274转载 2018-04-07 11:49:23 · 136 阅读 · 0 评论 -
Softmax函数与交叉熵
这篇文章讲的很详细:http://blog.csdn.net/behamcheung/article/details/71911133 softmax原理示意图:http://blog.csdn.net/u010159842/article/details/60876710转载 2018-01-18 14:58:19 · 241 阅读 · 0 评论 -
梯度下降
损失函数为: 其中m为样本个数 那么当J最小时,我们认为θ为最优解,即: 那么,对θ求梯度(梯度的方向也是函数值增长最快的方向——增长就意味着由小变大,即由低等值线指向高等值线,即沿着梯度的反方向函数下降最快,所以后面的θJ减去偏导乘以步长) 那么只用让θ减去步长乘梯度的值,那么θ就向最优解移动,即函数值减小,当函数值不在减小的时候,即达到局部最优解。 那么对于θ改变可理解为一次对原创 2017-11-14 16:12:37 · 265 阅读 · 0 评论 -
最小二乘法
我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对原创 2017-05-12 15:03:42 · 3674 阅读 · 0 评论 -
word2vec详解
读了其他文章,但是一直理解的不是很深刻,下面这篇文章读完简直豁然开朗。 word2vec 中的数学原理详解:https://blog.csdn.net/itplus/article/details/37969519转载 2018-06-23 16:05:28 · 343 阅读 · 0 评论