
深度学习
zenRRan
这个作者很懒,什么都没留下…
展开
-
深度学习数学基础一--最小二乘法
之前总是先上手一些比较高级的神经网络算法,CNN,RNN等。可是总觉得有些知识原理总是羁绊着我进一步理解。这才意识到基础的重要性。所以,就一点一点的从基础数学最小二乘法开始。这里用到的就是咱们小学或初中学到的知识。我们也都知道深度学习就是矩阵的各种计算。所以这里我们将那些知识和大学的线性代数进行简单结合。我们先了解向量之间的投影比如这张图已知:这是2维空间,A[3, 1], B[...原创 2019-03-05 17:37:42 · 898 阅读 · 0 评论 -
简单理解Momentum,RMSprop,Adam优化算法
我们初学的算法一般都是从SGD入门的,参数更新是:它的梯度路线为:但是可以看出它的上下波动很大,收敛的速度很慢。因此根据这些原因,有人提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。这个就用到理论的计算梯度的指数加权平均数,引进超参数beta(一般取0.9):beta和1-beta分别代表之前的dW权重和现在...原创 2019-03-07 18:27:59 · 644 阅读 · 0 评论 -
【干货】基于pytorch的CNN、LSTM神经网络模型调参小结
Demo这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN、LSTM、BiLSTM、GRU以及CNN与LSTM、BiLSTM的结合还有多层多通道CNN、LSTM、BiLSTM等多个神经网络模型的的实现。这篇文章总结一下最近一段时间遇到的问题、处理方法和相关策略,以及经验(其实并没有什么经验)等,白菜一枚。Demo Site: https://github....转载 2019-03-07 18:29:21 · 7874 阅读 · 0 评论 -
【干货】基于注意力机制的seq2seq网络
seq2seqseq2seq的用途有很多,比如机器翻译,写诗,作曲,看图写文字等等用途很广泛!该模型最早在2014年被Cho和Sutskever先后提出,前者将该模型命名为“Encoder-Decoder Model”也就是编码-解码模型,后者将其命名为“Sequence to Sequence Model”也就是序列到序列模型,两者有一些细节上的差异,但总体大致思想基本相同。seq2se...原创 2019-03-07 18:30:11 · 1184 阅读 · 0 评论 -
基于attention的seq2seq机器翻译实践详解
理理思路 文本处理,这里我是以eng_fra的文本为例,每行是english[tab]french,以tab键分割。获取文本,清洗。 分别建立字典,一个english,一个french。 根据字典写好seq2id的函数(文本序列->数字序列),并调用将文本序列化。 初始化Encoder,Decoder模型;选择合适的优化器;设置lr,epochs等参数;...原创 2019-03-08 09:06:26 · 3508 阅读 · 4 评论 -
【顶会论文解析】罪行预测
作者bamtercelboo原文地址https://bamtercelboo.github.io/2018/07/19/Learning-to-Predict-Charges-for-Criminal-Cases-with-Legal-Basis/导读2017年EMNLP(Conference on Empirical Methods in Natural Language...转载 2019-03-11 20:38:13 · 1339 阅读 · 5 评论 -
【论文笔记】中文词向量论文综述(一)
导读最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。一、Component-Enhanced Chinese Character Embeddings论文来源这是一篇2015年发表在EMNLP(Empirical Methods in Natural Lang...转载 2019-03-11 20:40:46 · 1348 阅读 · 0 评论 -
详解文本分类之多通道CNN的理论与实践
导读最近在梳理文本分类的各个神经网络算法,特地一个来总结下。接下来将要一个文章一个文章的讲解各个算法的理论与实践。目录暂定为: 多通道卷积神经网络(multi_channel_CNN) 深度卷积神经网络(deep_CNN) 基于字符的卷积神经网络(Char_CNN) 循环与卷积神经网络并用网络(LSTM_CNN) 树状循环神经网络(Tree-LST...原创 2019-03-12 07:43:29 · 4690 阅读 · 4 评论 -
详解文本分类之DeepCNN的理论与实践
导读最近在梳理文本分类的各个神经网络算法,特地一个来总结下。下面目录中多通道卷积已经讲过了,下面是链接,没看的可以瞅瞅。我会一个一个的讲解各个算法的理论与实践。目录暂定为: 多通道卷积神经网络(multi_channel_CNN) 深度卷积神经网络(deep_CNN) 基于字符的卷积神经网络(Char_CNN) 循环与卷积神经网络并用网络(LSTM_CNN)...原创 2019-03-12 07:45:38 · 2149 阅读 · 0 评论 -
谈谈我在自然语言处理进阶上的一些个人拙见
导读自然语言处理这个方向我感觉已经泛滥了,很多方向的人都开始转向该专业,当然也包括转向计算机视觉的。之前我写过一篇文章谈谈我在自然语言处理入门的一些个人拙见对很多人有过帮助,我感到很开心。但是现在已经不同往日了,很多人早已经入门了。当然,如果你已经进阶了,就忽略这个文章吧。嘿嘿。很多人通过微信,公众号等问我:现在已经看完深度学习视频了,我该怎么办?或者我早已经写完分类器了,接下来怎么办...原创 2019-03-12 07:46:26 · 637 阅读 · 0 评论 -
Highway Networks
导读本文讨论了深层神经网络训练困难的原因以及如何使用Highway Networks去解决深层神经网络训练的困难,并且在pytorch上实现了Highway Networks。一 、Highway Networks 与 Deep Networks 的关系深层神经网络相比于浅层神经网络具有更好的效果,在很多方面都已经取得了很好的效果,特别是在图像处理方面已经取得了很大的突破,然而,...转载 2019-03-08 13:29:16 · 667 阅读 · 0 评论 -
TreeLSTM Sentiment Classification
实验室周日讨论班讲的是TreeLSTM Sentiment Classification,主讲人:王铭涛本人来做一下总结。下面的图片来自于 王铭涛的ppt导读我们一步一步来。先说最基础的RNN结构:公式为:就一个简单的隐层h。但是RNN的缺点是会有梯度爆炸或者梯度消失问题。这里我就不详细解释了。下面推荐阅读有我之前的RNN,LSTM详细讲解,想更深一步了解...原创 2019-03-08 13:32:08 · 3504 阅读 · 0 评论 -
过拟合解决方法之L2正则化和Dropout
什么是过拟合? 一幅图胜千言万语欠拟合正确的拟合过拟合 过拟合(overfitting):就是对数据的过度严格的拟合。这个经常出现在分类问题上。怎么解决过拟合呢?L2正则化逻辑回归中L2正则化的过程: L2正则化是最常用的正则化。 我们先求出代价方程J(w,b)为:...原创 2019-03-07 18:27:18 · 1482 阅读 · 0 评论 -
深度学习之RNN、LSTM及正向反向传播原理
总说 RNN( Recurrent Neural Network 循环(递归)神经网络)跟人的大脑记忆差不多。我们的任何决定,想法都是根据我们之前已经学到的东西产生的。RNN通过反向传播和记忆机制,能够处理任意长度的序列,在架构上比前馈神经网络更符合生物神经网络的结构,它的产生也正是为了解决这类问题而应用而生的。 RNN及改进的LSTM等深度学习模型都是基于神...原创 2019-03-07 18:26:05 · 1881 阅读 · 0 评论 -
梯度下降法理论与实践
声明:下文中代码实现以上的图片来自2014stanford机器学习视频理论基础现在比如有两个参数的损失函数我们的目的是使之最小也就是得到能够使J函数最小的,,公示表示为:我们画出当取不同值时J的变化图是这样的颜色越深代表J值越大。我们比如随便取一个点(,各等于某值时),此点如图所示:此时比如我们站在此点上,想要快速到达谷底(也就是使J函数达到极小值)。此时我...原创 2019-03-06 11:59:44 · 388 阅读 · 0 评论 -
为什么要使用向量化?
简单的矩阵乘法理论 其实大概每个人都知道向量化后进行计算的速度比循环求解计算快,可是快多少,我们还是不太清楚。那么我就想简单的说下理论再上代码(python)吧。 比如我们有矩阵a = [1, 2]b = [3, 4] 循环相乘就是...原创 2019-03-06 12:28:35 · 5118 阅读 · 0 评论 -
简单maxPooling单层网络句子分类框架和数学理论
数据清洗 分词 英文的文本肯定不用这一步,中文就必须分词了。词向量化 这里我将用随机的向量化,一个词的维度为 n*1句子向量化,标签01化 假设句子 x 词的数量是m,那么它的向量为 n*m(一列一个词向量,顺序排m列) 比如三分类标签 G 分别为[1,0,0],[0,1,0],[0,0,1]初始化权重W...原创 2019-03-06 15:59:14 · 497 阅读 · 0 评论 -
谈谈我在自然语言处理入门的一些个人拙见
因为最近在准备本科毕设的论文部分,所以最近原创的相对比较少,但是为了坚持每天学点新知识,我也逼着自己每天抽出晚上的1小时左右把自己想到的并且自己还没理解的小知识点的网上搜索下好的文章,能一下子读懂的,最好有图之类的文章,再根据自己的一些小理解,将文章编辑下,分享给大家。末尾再附上自己的当天准备的五个托福单词,这五个单词我也不是我先学过的,而是托福单词随机到的,在我编辑的时候我也刚好学下。正是在这种...原创 2019-03-09 10:58:17 · 1143 阅读 · 0 评论 -
深度学习之激活函数详解
激活函数是什么激活函数,即Activation Function,有时候也称作激励函数。它是为了解决线性不可分的问题引出的。但是也不是说线性可分就不能用激活函数,也是可以的。它的目的是为了使数据更好的展现出我们想要的效果。激活函数在哪里用?比如一个神经网络为了更清晰的表示,我用红色标出。比如像上面的网络z = W*x,这个线性运算就是上面节点白色的部分,另一部分当然就是F(z)...原创 2019-03-06 21:16:48 · 1498 阅读 · 0 评论 -
pyTorch基础入门练习
import导入import torch#基本的torch函数import torch.autograd as autograd#自动求导import torch.nn as nn#神经网络类都在这个里面import torch.nn.functional as F#几乎所有的激励函数import torch.optim as optim#优化 创建Tensors#...原创 2019-03-06 21:19:34 · 1702 阅读 · 0 评论 -
pytorch自然语言处理之Pooling层的句子分类
Pooling作为最简单的层其实也可以作为句子分类任务。Pooling有很多种,max_Pooling,avg_Pooling,min_Pooling等。常用的还是max_Pooling:取同维度的最大值。先看看流程图:这里的Linear Layer后面应该经过一个Softmax的,可是由于交叉熵cross_entropy里隐含有Softmax,这里我就没有画了。第一步搭建网络...原创 2019-03-06 21:22:07 · 2217 阅读 · 0 评论 -
这些神经网络调参细节,你都了解了吗
在写本科毕业论文的时候又回顾了一下神经网络调参的一些细节问题,特来总结下。主要从weight_decay,clip_norm,lr_decay说起。以前刚入门的时候调参只是从hidden_size,hidden_num,batch_size,lr,embed_size开始调,但是后来才逐渐明白embed_size一般是设置完后不用再调的,比如设定为128后,就不要调了,因为embed_size...原创 2019-03-09 22:58:55 · 2283 阅读 · 0 评论 -
简单实例讲解为何深度学习有效
导读在之前的一些年里,深度学习已经占领了模式识别领域,之后又横扫了计算机数视觉,之后自然语言处理也慢慢的朝着这个方向开始了它的发展。但是虽然有这样的结果,我们还是想知道为什么深度学习效果是如此的好呢?这里讲一些目前我们经常应用的前人在自然语言处理上研究的成果,来说说深层神经网络!在下面,会明确告诉大家深度神经网络如何工作的这么好,为什么会有如此美好的前景!单隐层神经网络一...翻译 2019-03-10 08:40:48 · 967 阅读 · 0 评论 -
深度学习之卷积神经网络CNN理论与实践详解
概括大体上简单的卷积神经网络是下面这个网络流程:笼统的说: 文本通过Embeding Layer后,再通过一些filters进行过滤,对结果进行maxPooling,再经过线性层映射到类别上,最后经过Softmax,得出类别分数。细致的说: 就得慢慢分析了,as follows:第一层:将Embeding进行filter 设...原创 2019-03-07 18:04:11 · 559 阅读 · 0 评论 -
自然语言处理之基于biLSTM的pytorch立场检测实现
其他文中已经讲过了LSTM的原理,LSTM理解了,biLSTM其实也就很容易理解了。这个实验,我是根据黑龙家大学nlp实验室的冯志,王潜升师兄的指导以及一篇基于biLSTM的paper实现的,如果想要这个paper的pdf,可以私聊我,一起进步。 biLSTM是双向循环神经网络,简单的理解就是LSTM正向走一遍,又反向走了一遍而已。而对于立场检测这个实验,在这里我借用...原创 2019-03-07 18:07:00 · 1919 阅读 · 9 评论 -
详谈P(查准率),R(查全率),F1值
怎么来的? 我们平时用的精度accuracy,也就是整体的正确率 acc=predict_right_num/predict_num这个虽然常用,但不能满足所有任务的需求。比如,因为香蕉太多了,也不能拨开人工的一个一个的看它的好坏(我爱吃啊,想想就心疼),此时我们就需要有一种方法,代替拨开香蕉这种粗鲁的手段。这时我们需要通过一些测试,看看哪种方法能更加准确的预测...原创 2019-03-07 18:11:20 · 5535 阅读 · 1 评论 -
调参的一些个人拙见
最近的事。。浓缩成下面的一张图。调参有哪些方法呢? 语料处理。这个是之后一切操作的基础。有人或许认为算法是最重要的,其实不然,语料处理真的真的是最重要的。就比如中文语料处理,全角转半角,繁体转简体,大写转小写(中文语料也可能有英文呀)。语料处理好了,能提高好个点。 代码问题。有时候你虽然调出最高的参数了,可是你不能在此还原这样一抹一样的数据,为什么呢?我有一次就是这样。原因...原创 2019-03-07 18:23:58 · 381 阅读 · 0 评论 -
详解Transition-based Dependency parser基于转移的依存句法解析器
主讲:余南整理:甄冉冉出自:黑龙江大学自然语言处理实验室周末讨论班以下图片,来自于余南师兄什么是依存句法树依存句法树就是表示一个句子中词与词之间的依存关系,如下图其中两个词之前的弧表示这两个词有依存关系,弧上的标签为二者的关系,弧的始发点为父亲节点,箭头指向为孩子节点。比如The 和 fox 是冠词+名词(det)的名词短语。除了一个词,即根节点(这...原创 2019-03-18 19:54:07 · 3083 阅读 · 1 评论