- 博客(10)
- 资源 (6)
- 收藏
- 关注
转载 什么导致了消失的梯度问题?深度神经网络中的梯度不稳定性
转载自哈工大SCIR(公众号) 为了弄清楚为何会出现消失的梯度,来看看一个极简单的深度神经网络:每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络:
2016-09-30 15:20:23 4459 1
原创 RNN,LSTM 反向传播算法的思考 & RNN,LSTM可以模块化的分析
RNN的前向传播过程:RNN的BPTT公式: 说明:第t时刻,本层结点的残差有两个来源:一是上一层结点t时刻的残差进行加权(这个跟前馈网络是一样的,最后的误差要分派到每一个神经元上面,通过加权的方式,其实就是前面的神经元的误差累积形成最后的残差),二是后一个时刻(t+1)隐层结点的残差进行加权。所以,层与层之间的交互也只是将上一层的t时刻残差传给下一
2016-09-27 14:33:04 2115
原创 Lua实现LSTM 前向传播
LSTM本身不是一个完整的模型,LSTM是对RNN隐藏层的改进。一般所称的LSTM网络应该称为使用了LSTM单元的RNN网络。本博文翻译自https://apaszke.github.io/lstm-explained.html。1、RNN其实和前馈网络没很大差异,RNN也可以层级堆叠。只是说前一时刻的隐藏层的输入要继续作为当前时刻的输入。
2016-09-26 16:17:08 1347
原创 如何解决机器学习中数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不
2016-09-25 10:45:05 26306 2
原创 数据分析中的缺失值处理
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。造成数据缺失的原因现实世界中的
2016-09-24 23:52:42 102441 6
原创 深度学习框架可使用组件化的思考&BP反向传播的思考
BP算法原理:http://ufldl.stanford.edu/wiki/index.php/%E5%8F%8D%E5%90%91%E4%BC%A0%E5%AF%BC%E7%AE%97%E6%B3%95说明:不管CNN,DNN,RNN等深度学习网络架构,最核心的还是使用梯度下降法进行优化。通过BP算法可以看出,权值的更新只跟残差和激活值有关。并且,下一层的残差,仅仅是上一层残差的加权
2016-09-23 16:13:43 603
原创 自然语言处理中CNN模型几种常见的Max Pooling操作
CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。图1展示了在NLP任务中使用CNN模型的典型网络结构。一般而言,输入的字或者词用Word Embedding的方式表达,这样本来一维的文本信息输入就转换成了二维的输入结构,假设输入X包含m个字符,而每个字符的Word Embedding的长度为d,那么输入就是m*d的二维向量。这里可以看出,因为NLP
2016-09-22 22:42:48 2835
原创 NLP分类问题中,使用半监督或无监督的手段来减少标注的任务
文本分类应该是最常见的文本语义分析任务了。首先它是简单的,几乎每一个接触过nlp的同学都做过文本分类,但它又是复杂的,对一个类目标签达几百个的文本分类任务,90%以上的准确率召回率依旧是一个很困难的事情。这里说的文本分类,指的是泛文本分类,包括query分类,广告分类,page分类,用户分类等,因为即使是用户分类,实际上也是对用户所属的文本标签,用户访问的文本网页做分类。几乎所有的机器学习方法
2016-09-20 15:40:50 22890 2
转载 漫话中文自动分词和语义识别(下):句法结构和语义结构
这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。 什
2016-09-18 21:34:59 1828
转载 对于特征离散化,特征交叉,连续特征离散化非常经典的解释
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决
2016-09-02 11:05:19 22987 5
machine learining Dimensionality Reduction (Week 8) exercise
2015-04-22
machine learning Regularization (Week 3) exercise
2015-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人