Deep learning
sir_TI
成长吧,骚年!
展开
-
GRU和GRUCell
GRU和GRUCell最直观的图解一、API1.1 GRU官方计算方式如下:rt=σ(Wirxt+bir+Whrh(t−1)+bhr)zt=σ(Wizxt+biz+Whzh(t−1)+bhz)nt=tanh(Winxt+bin+rt∗(Whnh(t−1)+bhn))ht=(1−zt)∗nt+zt∗h(t−1)r_t = \sigma(W_{ir} x_t + b_{ir} + W_{hr} h_{(t-1)} + b_{hr}) \\ z_t = \sigma(W_{iz}原创 2020-06-17 21:47:09 · 6229 阅读 · 4 评论 -
pyTorch 导入预训练词向量
pyTorch 导入预训练词向量现在的预训练词向量很多,如glove,word2vec等。在做实验时,这次词向量基本能够满足自己的需求,只需要从特定的网址把预训练词向量下载下来即可。笔者就是遇到了这样的一个需求,在torch中使用预训练的词向量。于是写下此份笔记,便于后面查询。...原创 2020-04-24 13:13:37 · 3962 阅读 · 2 评论 -
循环神经网络
循环神经网络(RNNs)1 RNN结构RNN(Recurrent neural network)是为了解决什么一个问题的呢?因为一般情况下序列的信息决定事件本身。如果我们试图使用这类数据得到有用的输出,就需要一个这样的网络:能够访问一些关于数据的先前知识(prior knowledge),以便完全理解这些数据。因此,RNN就出现了。在最原始的情况下,RNN的网络结构如下图:其中,U是输入...原创 2019-07-12 15:47:55 · 476 阅读 · 0 评论 -
Attention
前记现在的深度学习中,特别是在NLP领域里面,几乎attention已经成为了每个模型的标配,因为attention模型在序列建模上面有着天然的优势,能够将注意力集中到特定的部分。1 Attention的提出 在机器翻译(NMT)的任务中,为解决RNN中的Encoder-Decoder的基础上target端输入固定长度的问题,提出了Align方式,这也是Attention的开始。这篇pa...原创 2019-07-15 20:43:59 · 1030 阅读 · 0 评论 -
文本分类与LDA
文本分类实战本文主要是针对实战来进行设置的,假设你之前已经了解了朴素贝叶斯和支持向量机(SVM)的基础知识了。现在想从代码的层面去实战文本分类,那么这篇文章可以加深你对这两个算法的理解。1.使用朴素贝叶斯进行文本分类在sklearn的实现中,涉及到朴素贝叶斯的主要是三个类:1.1 GaussianNB类GaussianNB假设特征的先验概率为正态分布,即满足下式:P(Xj=xj∣Y=C...原创 2019-06-30 18:12:51 · 2052 阅读 · 2 评论 -
CNN学习记录(二)
CNN学习记录(二)之前写过关于CNN的基础知识总结,在这里也就不再重复这些问题,需要查看基础的请点击。CNN用于文本分类原理我们知道,CNN广泛的用在了图像领域,是图像领域的一个重大利器。但是现在,随着循环神经网络RNNs在长距离文本处理的缺点,人们开始使用CNN来提取特征,CNN提取的方式可以从下图来解释:假设我们一句话是:wait for the video and don't ...原创 2019-07-09 18:22:18 · 179 阅读 · 0 评论 -
使用互信息进行特征选择
特征提取1.TF-IDF学习之前已经总结过TF-IDF相关的内容了。这里就不再重复编写了,需要的话请参看:https://blog.csdn.net/sir_TI/article/details/88135434。本质内容就是一个公式的问题。然后现在主要总结的就是关于TF-IDF相关的代码分析。先总结出特征提取的流程,然后将相关的内容以代码的形式体现出来。具体请参见我的github2.互...原创 2019-06-27 18:14:19 · 13562 阅读 · 5 评论 -
基于规则的中文分词方法
基于规则的中文分词方法前记目前,常见的中文分词方法可以分为三类:基于字典、词库匹配的分词方法(基于规则)这种方法是将待分的句子与一个充分大的词典中的词语进行匹配。常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率,或将分词与词类...原创 2019-06-23 15:51:52 · 3956 阅读 · 0 评论 -
tensorflow之基本操作
Tensorflow 基本操作前记之前一直想学习tensorflow的,但是苦于tensorflow的操作实在是复杂,计算图、定义图这一套流程走下来感觉也是无比艰难的,于是转投到pytorch门下,无比的感叹pytorch的实用性,但是考虑到现在tensorflow还是主流的深度学习框架,也是需要学习的对象,那么借着Datawhale第八期的机会,开始学习一下tensorflow的基本操作。...原创 2019-06-20 17:09:33 · 297 阅读 · 0 评论 -
【深度学习实战】---TensorBoard网络可视化
【深度学习实战】—TensorBoard网络可视化前记为了能够更加深层次的理解我们的网络结构,不必要是画一份简简单单的网络的草图(如【深度学习实战】迈出第一步------编写第一个神经网络),那么我们可以借助TensorFlow上面的可视化工具TensorBoard来可视化我们网络结构。只能说用了一次这样的工具,你会发现,你对网络中数据的流动会更加的清楚,上面还有一系列的维度表示,可以清楚的让...原创 2019-05-26 18:06:33 · 4208 阅读 · 8 评论 -
【深度学习实战】迈出第一步------编写第一个神经网络
前记其实刚开始记录这个内容的时候,自己的内心是很纠结的,因为这本就不是我应该纠结的内容,coding是一个程序员必备的技能,不管他是处在一个什么岗位,但是自己貌似走入了一个误区,关于DeepLearning这一块,我一直在跑别人的代码,自认为理论熟悉了,代码写起来不就是小case么,自己是错了,因为,自己在写的时候,发现根本就写不出来,神经网络就是个黑盒子,看的轮子再多,自己没造一个轮子的话,...原创 2019-04-28 20:37:37 · 502 阅读 · 0 评论 -
CART分类与回归
CART分类树与回归树前记本篇文章不会大幅度去介绍CART是怎么来的,以及CART与其他不同的地方,但是会着重的讲解在面试过程中遇到的问题,知识点的话会简单点的温习一下,本文是按照博主学习CART的过程俩编写,本文假设读者已经知道了ID3已经C4.5算法,若写的有问题,请指出,谢谢.1. 为什么会有CART我们已经知道在ID3中,我们是使用信息增益去作为分类的基准的,在现场面试中,面试官曾...原创 2019-04-21 16:14:32 · 1837 阅读 · 0 评论 -
面经之word2vec(2)
面经之word2vec篇(二)前篇本篇文章主要是结合word2vec源码来进行分析其中的一些trick。为什么要学习呢?还不是因为热爱(面试官问了源码的相关内容,虽然之前看了,但是不熟悉,咱补起来…)有时间还可以看一下word2vec经典的论文:(PS:本人说没看论文,看了代码,然后被鄙视了…)言归正传,我们开始剖析源代码了:1.word2vec之σ\sigmaσ函数的计算按照我们的想...原创 2019-04-11 22:03:28 · 838 阅读 · 1 评论 -
word2vec详解(一)
面经之word2vec篇(一)前篇本来以为自己word2vec掌握的很好,面试的时候回答的一团糟…借此机会,结合面试提问,再来复习一遍word2vec吧,面试给自己上了一节很重要的课…本篇文章主要是讲解CBOW以及skip-gram模型1.为什么需要word embedding首先使用one-hot的时候,可能会导致维度爆炸,其次,使用one-hot的时候,所有的词之间的距离相同,而实际...原创 2019-04-10 23:42:42 · 7531 阅读 · 5 评论 -
理解残差网络(ResNet)
1.为什么需要残差神经网络?现在,目前有个通识就是,只要神经网络的层次足够,那么实际是可以表示任何事物的,但是在通常的情况下,深层次的网络会遇到一个很令人厌烦的问题:梯度消失,即当神经网络足够深的情况下,那么它的梯度值最终会趋向于0。那么怎么解决这个问题呢?比如之前我们可以使用BN或者更换激活函数为Relu,但是这样会导致深层次的网络的误差变大,如原文中作者给出的图:通过在一个浅层网络基础上...原创 2019-03-31 15:06:06 · 2212 阅读 · 1 评论 -
文本相似度计算-bm25算法详解
1 bm25说到bm25算法,那么就不得不说一下TF-IDF了,关于TF-IDF,解释如下:1.1 TF-IDF介绍TF:Term Frequency即词频,是文本中某个词出现的次数IDF:Inverse Document Frequency即逆文本频率,那么关键是理解IDF的含义,首先我们给出IDF的计算公式: ...原创 2019-03-04 20:05:12 · 3093 阅读 · 0 评论 -
RNN梯度消失和爆炸
原文:链接也可以参考:解释的也很清晰建议先看第一个一,经典的RNN结构如下图所示: 假设我们的时间序列只有三段, 为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:假设在t=3时刻,损失函数为 。则对于一次训练任务...转载 2019-03-29 21:34:49 · 438 阅读 · 0 评论 -
CNN学习记录一
###1.什么是CNN,CNN是怎么来的? 卷积神经网络(Convolutional Neural Networks:以下简称CNN,在图像分类的为题上具备较好的性能,图像分类最主要的问题在于特征选择上。那么相较与传统的分类算法(如SVM),CNN在图像分类上有哪些亮点呢?举个例子来说明:如果我们用神经网络直接对猫狗进行分类呢?这样不就避开了特征提取这一步了吗?假设输入图片大小为30*30,...原创 2019-03-24 21:12:15 · 292 阅读 · 0 评论