机器学习
文章平均质量分 85
哈乐笑
北大信科11级本科生,15级硕士生
展开
-
sigmoid/softmax指数运算溢出问题的解决方法
今天用tensorflow的代码的时候,看到了tensorflow中计算crossentropy方法的,不由得赞叹起来开发人员的巧妙构思。顺便捋了一下sigmoid/softmax指数运算溢出问题的解决方法。sigmoid和softmax函数在计算中,都会用到指数运算e−xe^{-x}e−x或者exe^{x}ex,这个时候,如果前一步计算得到的xxx非常小或者非常大的时候,都有溢出的风险,同时在计算cross entropy的时候,也要考虑下溢出,因为如果softmax分子太小近似为0,前面取log.原创 2020-07-16 15:48:40 · 2881 阅读 · 0 评论 -
时间特征在深度学习中的表示问题
这几天对于时间序列的预测,需要时间这一特征值,月份,星期等等。对于这些时间序列特征需要怎么去刻画和表示嗯?one-hot方法一个直观想到的方法就是one-hot法,但是仔细考虑一下,one-hot真的适合表示时间序列吗?one-hot适用于的特征应该是分类特征,而且不同类别之间的距离是没有差别的,比如红黄蓝三种颜色,汉字等等用one-hot表示是很好的。但是对于时间序列,5点和6点跟18点...原创 2018-12-14 14:39:11 · 2941 阅读 · 3 评论 -
推荐系统研究相关的数据集
因为最近要做一些关于推荐系统相关的研究,所以查阅了一些资料,总结一下市面上能用到推荐系统研究方面的常用公开数据集。作者:张昭 haolexiaoJester在线笑话评分数据集这个数据集是Jester这个伯克利专门用来收集数据集的在线笑话网站http://eigentaste.berkeley.edu/,类似于外文的糗事百科,不过更侧重于冷笑话。然后每个笑话展示后用户可以依据好笑程度打分。然后伯克利原创 2017-07-27 18:04:02 · 2971 阅读 · 0 评论 -
【机器学习】关于CNN中1×1卷积核和Network in Network的理解
前天去面某公司的AI部门,被问到了关于1×1卷积核的相关问题,因为之前没有了解过,所以也没有答上来,回来查阅了相关资料,特此总结一番。1×1的卷积核卷积核在CNN中经常被用到,一般常见的是3×3的或者5×5的,见下图,这里不多赘述 那么1×1的卷积核,就像上面那样。 一般1×1的卷积核本质上并没有对图像做什么聚合操作,以为就是同一个ww去乘以原图像上的每一个像素点,相当于做了一个scali原创 2017-08-10 20:35:45 · 24302 阅读 · 6 评论 -
【机器学习】Kernel Logestic Regression 和Kernel SVM
之前一篇文章【机器学习】Linear SVM 和 LR 的联系和区别讲了线性SVM和常规LR的关系和优缺点。结果今天想研究一下Kernel logistic regression(以下简称KLR),结果发现相关的中文资料几乎没有啊, SVMww是xix_i的线性组合是使用Kernel的关键所在。 比如SVM,其最佳ww来源于xix_i的线性组合 w∗=∑i=1n(αiyi)xiw^* = \s原创 2017-04-26 22:14:50 · 2159 阅读 · 2 评论 -
【机器学习】softmax函数总结
原本以为softmax函数求导没啥难度的,结果自己写CNN的时候,梯度算的一直不对,查了半天才发现是因为softmax求导没求对。索性就开一篇Blog把softmax相关的都给记录一下。softmax的定义softmax函数如下: aLj=ezLj∑kezLka_j^L = \frac{e^{z_j^L}}{\sum_k e^{z_k^L}} 其可以看成sigmoid函数在多元分布中的一个推广原创 2017-05-25 21:13:16 · 17959 阅读 · 0 评论 -
再生核希尔伯特空间(RKHS)和核函数
之前看SVM核函数相关的问题,总是会碰到再生核希尔伯特空间(Reproducing Kernel Hilbert Space, RKHS)不过一直没有太仔细了解过到底是指的什么,前几天研究了一下。希尔伯特空间先来说一下什么是希尔伯特空间。 这个概念听起来高大上,其实是个非常简单的概念。 先说什么是线性空间线性空间线性空间即定义了数乘和加法的空间。这个就是具有线性结构的空间。 有了线性空间的概原创 2017-05-15 17:48:51 · 44942 阅读 · 14 评论 -
【机器学习】Linear SVM 和 LR 的联系和区别
今天看到别人问这个问题,突然想到自己也对这两个经典的线性分类器没有太过区别其异同,所以特此翻阅了一下资料总结了一番。以下理论部分主要参考了LR与SVM的异同这篇文章LR和Linear SVM的相同点都是监督的分类算法都是线性分类方法 另外这里需要说的就是LR也是可以加核函数的至于为什么不用,是原因的,后面再说。都是判别模型 判别模型和生成模型是两个相对应的模型。 判别模型是直接生成一个原创 2017-04-16 03:05:11 · 14079 阅读 · 1 评论 -
CNN中的梯度的求法和反向传播过程
写这个起因是前段时间面试的时候被问到了CNN中反向传播该怎么求,我说直接算就好了呀,面试官让我下来再看看。之后问了下舍友,舍友说需要去把卷积核旋转180°来反向传播,然后我就赶紧查了下相关资料,发现还是非常interesting的。【不过这种本质上还是链式法则直接求的结果,只是形式上会比较tricky】卷积神经网络(Convolutional Neural Network)关于卷积神经网络的相关介原创 2017-05-22 22:35:00 · 13749 阅读 · 1 评论 -
【机器学习】贝叶斯角度看L1,L2正则化
之前总结过不同正则化方法的关系【不过那篇文章被吞了】当时看的资料里面提到了一句话就是:正则化等价于对模型参数引入先验分布,而L1正则化相当于参数中引入拉普拉斯分布先验,而L2分布则相当于引入了高斯分布先验。当时这这句话不是很理解,今天又找了一下相关的资料研究了一下。贝叶斯学派和频率学派要解释上面的问题,需要先区别一下贝叶斯学派和频率学派的区别。 本质上频率学派和贝叶斯学派最大的差别其实产生于对原创 2017-04-19 21:42:53 · 9860 阅读 · 3 评论 -
【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)
首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,之前非常著名的那篇LSTM讲解的文章也是他写的。这篇文章详细讲解了信息论中许多基本概念的来龙去脉,而且非常的直观用了大量的图片,和形象化的解释。信息量信息量用一个信息所需要的编码长度来定义,而一个信息的编码长度跟其出现的概率呈负相关,因为一个短编码的代价也是巨大的,因为原创 2017-04-12 15:20:34 · 27164 阅读 · 15 评论 -
【机器学习】生成模型和判别模型
上篇文章提到了Linear SVM 和 LR 的联系和区别,提到了它们都是判别模型。但是什么是判别模型呢,与其相对应的生成模型又有哪些呢。本文来总结一下。以下部分主要参考了李航那本《统计学习方法》判别模型和生成模型都是指监督学习下的模型,监督学习模型本质上就是求决策函数: Y=F(X)Y=F(X) 或者条件概率分布: P(Y|X)P(Y|X) 而求解过程又可以分为判别方法和生成方法生成模型原创 2017-04-18 01:24:05 · 4126 阅读 · 2 评论 -
回归树,Gradient Boosting和GBDT
之前对GBDT不是很了解,所以查了查相关资料研究一下。原创 2017-03-15 19:19:43 · 2924 阅读 · 0 评论 -
【机器学习】手推EM算法
Andrew Wu那门《机器学习》真的是太好了,每次看都有不少新收获,今天打算重新回顾一下EM算法来着,结果看李航的《统计学习方法》发现之前的理解有不少错误,又重新开始研究,结果都不是很明白,看Andrew Wu的视频,顿时就明白了。大牛果然是大牛。EM算法是一个非常经典的非监督学习算法。 一般手推EM算法,需要先说琴生不等式【Jensen不等式】琴生不等式如果一个函数是凸函数:f(x⃗ )f(原创 2017-03-11 01:49:30 · 4107 阅读 · 0 评论