pytorch
文章平均质量分 87
胖虎卖汤圆
上海科技大学硕士
展开
-
2020美赛C题总结一:电商评论情感分类
由于是第一次参加美赛,没有经验,这里记录一下这次比赛的一些细节、使用的算法和比赛经验审题题目和数据网上应该都有,首先看到题目后我第一个想到的是自然语言处理(nlp),自然语言处理中的一项重要处理就是情感分析(Sentiment Analysis),情感分析与这题的文本评论内容的转化密切相关。在这个题目中我们可以使用nlp将评论分成五个等级,对应着评星的五个等级,这是因为我们的数据集主要来源于斯...原创 2020-03-13 18:33:49 · 1606 阅读 · 0 评论 -
PyTorch--用循环神经网络LSTM预测时间序列
LSTM使解决序列问题用处最广的算法之一,在这篇文章中,我们可以知道怎么使用LSTM来预测时间序列。当然,这个算法还有很多提升空间,由于循环神经网络容易出现梯度爆炸的情况,我们可以加入梯度裁剪;为了减少泛化误差,我们可以使用k折交叉验证等等方法来优化模型。原创 2020-03-02 22:20:31 · 18729 阅读 · 44 评论 -
PytorchTotrial4_注意力机制和Seq2seq模型
注意力机制在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为...原创 2020-02-19 21:25:02 · 368 阅读 · 0 评论 -
PytorchTotrial4_Transformer
Transformer在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾:CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...原创 2020-02-19 21:18:11 · 234 阅读 · 0 评论 -
PytorchTotrial5_ModernCNN
深度卷积神经网络(AlexNet)LeNet: 在大的真实数据集上的表现并不尽如⼈意。1.神经网络计算复杂。2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。机器学习的特征提取:手工定义的特征提取函数神经网络的特征提取:通过学习得到数据的多级表征,并逐级表⽰越来越抽象的概念或模式。神经网络发展的限制:数据、硬件AlexNet首次证明了学习到的特征可以超越⼿⼯设计的特征,从...原创 2020-02-19 21:17:41 · 106 阅读 · 0 评论 -
PytorchTotrial5_LeNet
course contentlenet 模型介绍lenet 网络搭建运用lenet进行图像识别-fashion-mnist数据集Convolutional Neural Networks使用全连接层的局限性:图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像,使用全连接层容易导致模型过大。使用卷积层的优势:卷积层保留输...原创 2020-02-19 21:16:02 · 119 阅读 · 0 评论 -
PytorchTotrial5_卷积神经网络基础
卷积神经网络基础本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通...原创 2020-02-19 21:15:02 · 142 阅读 · 0 评论 -
PytorchTotrial4_机器翻译
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。import osos.listdir('/home/kesci/input/')['fraeng6506', 'd2l9528', 'd2l6239']import sys...原创 2020-02-19 21:07:04 · 185 阅读 · 0 评论 -
PytorchTotrial3_ModernRNN
GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:Ht=ϕ(XtWxh+Ht−1Whh+bh)H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h})Ht=ϕ(XtWxh+Ht−1Whh+bh)GRU:Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(X...原创 2020-02-19 21:06:33 · 158 阅读 · 0 评论 -
PytorchTotrial3_梯度消失、梯度爆炸
梯度消失、梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)...原创 2020-02-19 21:05:00 · 332 阅读 · 0 评论 -
PytorchTotrial3_过拟合欠拟合及其解决方案
过拟合、欠拟合及其解决方案过拟合、欠拟合的概念权重衰减丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛...原创 2020-02-19 21:04:15 · 220 阅读 · 0 评论 -
PytorchTotrial2_RecurrentNeuralNetwork
循环神经网络本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1,可以认为HtH_{t}Ht记录了到当前字符为止的序列信息,利用HtH_{t}H...原创 2020-02-14 20:59:48 · 177 阅读 · 0 评论 -
PytorchTotrial2_LanguageModel
语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:P(w1,w2,…,wT).P(w_1, w_2, \ldots, w_T).P(w1,w2,…,wT).本节我们介绍基于统计的语言模型,主要是nnn元语...原创 2020-02-14 20:58:09 · 118 阅读 · 0 评论 -
PytorchTotrial2_TextPrepare
文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型读入文本我们用一部英文小说,即H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。import collecti...原创 2020-02-14 20:56:13 · 141 阅读 · 0 评论 -
PytorchTotrial1_MultilayerPerceptron
多层感知机多层感知机的基本知识使用多层感知机图像分类的从零开始的实现使用pytorch的简洁实现多层感知机的基本知识深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图,它含有一个隐藏层,该层中有5个隐藏单元。表达公式具体来说,给定一个小批量样本X∈...原创 2020-02-14 20:55:11 · 320 阅读 · 0 评论 -
PytorchTotrial1_SoftmaxClassify
softmax和分类模型内容包含:softmax回归的基本概念如何获取Fashion-MNIST数据集和读取数据softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型使用pytorch重新实现softmax回归模型softmax的基本概念分类问题一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。图像中的4像...原创 2020-02-14 20:54:03 · 160 阅读 · 0 评论 -
PytorchTotrial1_LinearRegression
线性回归主要内容包括:线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+bprice...原创 2020-02-14 20:50:28 · 347 阅读 · 0 评论 -
Pytorch的backward()相关理解
自己记录一下https://blog.csdn.net/douhaoexia/article/details/78821428转载 2020-02-13 19:30:48 · 174 阅读 · 0 评论