![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 54
yanglee0
这个作者很懒,什么都没留下…
展开
-
former系列在时间序列预测任务上的研究综述
现有基于Transformer的LSTM解决方案设计要素总结如下::对于数据处理,TSF中0均值归一化是比较常见的。此外,还有季节趋势分解预测(Autoformer)。:自注意层不能保留位置信息,因此可采用位置embedding,保留位置信息,具体有局部位置信息(数据顺序)、全局信息(年月周等)和其他信息如节假日、大型活动等。对于位置信息的编码有两种:固定embedding和可学习embedding。:自注意方案是用来提取成对元素之间的语义依赖。原创 2024-06-18 20:50:31 · 568 阅读 · 0 评论 -
深度学习模型训练的全流程
每轮进行训练和验证,并根据最优验证集精度保存模型。原创 2023-06-30 12:11:23 · 543 阅读 · 0 评论 -
#简历:CCKS2021—通用百科知识图谱实体类型推断
项目介绍:(项目背景、项目难点、怎么做的、其中难点具体是怎么解决的,突出下解决思路以及实现的效果是怎么样的)首先这个项目是基于通用百科知识图谱进行实体类型的推断,那么这个项目的难点其实在于一点标注数据都没有,而且实体类型非常多,但并不属于多分类任务,而是多标签任务,就是说对于一个实体,可能是存在多个标签。怎么做的:对于纯无标注的数据,结合业务理解构建种子词; 通过种子词构建 模型训练集;搭建基于 ERNIE 的多标签学习的代码框架,训练模型进行实体类型推断; 对推断的实体类型进行规则等辅助的后处理。原创 2021-07-15 19:24:17 · 297 阅读 · 0 评论 -
DeepAR多重多元多步时间序列预测
时间序列、多重多元多步时间序列预测原创 2022-08-14 16:51:11 · 2632 阅读 · 0 评论 -
TextCNN和DPCNN
一、TextCNNTextCNN详细过程二、DPCNN1、背景近期在分析长短文本的分类问题,所以探索并比较了一些模型选型方案,一般简单的短文本分类模型可以将TextCNN模型作为baseline,但是如果文本较长,TextCNN就不太适用了。因为TextCNN是浅层网络【ShallowCNN,下图(b)所示】,对文本的长距离依赖捕获能力有限,若想要克服TextCNN的缺点,显然要用到特征提取能力更强的DeepCNN。那么该如何构造这种DeepCNN的网络结构呢?比如最简单的直接一堆等长卷积可否?原创 2022-05-12 11:35:38 · 569 阅读 · 0 评论 -
时间序列任务
一、时间序列预测比较常见的工具方法通常来说,时间序列预测工具方法可以归结为三大类:1、一类是基于业务场景理解的因子预测模型,2、一类是传统时间序列预测模型,比如均值回归、ARIMA、指数平滑预测法(比如Holt-Winters)等,3、一类是机器学习模型,比如支持向量机、树模型(比如GBM、QRF)、神经网络模型(比如RNN、CNN)等。2.1 基于业务场景理解的因子预测模型基于因子的时序预测是一种传统的预测手法,在一些特定场景有着比较好的表现,比如某条业务线刚起步,历史数据的积累有限的时候。同转载 2021-09-23 16:16:17 · 1055 阅读 · 0 评论 -
时间序列预测-深度学习方法
一、LSTMclass LSTM(nn.Module): def __init__(self, input_size=1, hidden_layer_size=100, output_size=1): super().__init__() self.hidden_layer_size = hidden_layer_size self.lstm = nn.LSTM(input_size, hidden_layer_size) sel原创 2021-12-08 20:46:42 · 3332 阅读 · 0 评论 -
ALBERT详细知识点
maskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskALBERT的三个关键的知识点:1、和BERT中NSP任务相比,ALBERT中的SOP任务的关键点(第一张图)2、ALBERT对嵌入参数进行因式分解(第二章图)3、ALBERT中encoder层的跨层参数共享。(第二章图)...原创 2021-09-20 15:04:03 · 125 阅读 · 0 评论 -
手写一个二层的神经网络
# 手写一个两层的神经网络import numpy as npx = np.array([[0,0,1],[0,1,1],[1,0,1],[1,1,1],[0,0,1]])y = np.array([[0],[1],[1],[1],[0]])# 定义sigmoid函数def sigmoid(x,deriv = False): if deriv == True: # 导数为deriv==True return x*(1-x) else: r原创 2021-09-18 16:56:54 · 215 阅读 · 0 评论 -
bert有一些细节的问题
1、bert中mask任务,具体过程是怎么样的?因为是mask任务,那么我们输入输出的hidden其实是一样的,对于我们的输入是[batch_size,seq_len,embedding_dim],那么对应的输出也是[batch_size,seq_len,embedding_dim]。同时刚开始随机初始化W矩阵,W=[embedding_dim, vocab_size],Xhidden*Wvocab = [batch_size,seq_len,vocab_size]。进行参数的更新,最后再经过一个原创 2021-09-10 11:12:50 · 337 阅读 · 0 评论 -
FastText知识点整理
一、字符级别的n-gram二、模型架构三、核心思想四、关于分类效果五、总结转载 2021-08-15 14:52:14 · 249 阅读 · 0 评论 -
transformer整理版本
0 模型架构图举例:中文输入为“我爱你”,通过 Transformer 翻译为 “I Love You”。1、输入Inputs(图的左侧)部分和输出Outputs(图的右侧)部分1.1 输入Inputs1.1.1 Input Embeddingnn.Embedding 包含一个权重矩阵 W,对应的 shape 为 ( num_embeddings,embedding_dim )。num_embeddings 指的是词汇量,即想要翻译的 vocabulary 的长度。embedding_dim 指原创 2021-08-13 15:02:58 · 1644 阅读 · 0 评论 -
多标签中长尾问题/训练数据不足的问题
长尾问题算法和数据两个方案:大量标签(超过100个,1000个那种)的项目中会出现。数据上:直接把长尾标签对应的样本提升上去。算法角度上:尽可能的利用本身现有信息。可以利用层级信息辅助多标签的预测。或者利用标签之间的语义关系这些信息,去预测标签。训练数据不足:(1)数据增强的手段:图片:翻转,滤波器。文本:– 常规增强:随意删除某一字,调整字的顺序,同义词替换,随机替换(增强它的鲁棒性)。– 生成的算法:比如和GBT模型做些文本生成任务。(2)可以先引入预训练模型,或者自己原创 2021-08-11 13:11:26 · 779 阅读 · 0 评论 -
ERNIE
ERNIE1.0ERNIE1.0主要是改进了BERT的MLM任务。我们看图说话,1、ERNIE1.0的掩码机制从图中,我们很容易发现ERNIE1.0对于BERT的改进是在MLM任务(一共三种mask,新增了两种mask)。在论文,作者阐述了三种不同的mask技巧:基础mask:任意mask一个单词 (BERT所采用的mask类型)短语mask:不是将单词看成一个整体,而是将短语看成一个整体;(比如上图中,mask了a series of而不仅仅是of)实体mask:mask一个实体名。(比如原创 2021-07-27 20:46:11 · 998 阅读 · 0 评论 -
反向传播BP推导
一、什么是反向传播?通俗解释:类比几个人站成一排,第一个人看一幅画(输入数据),描述给第二个人(隐层)……依此类推,到最后一个人(输出)的时候,画出来的画肯定不能看了(误差较大)。反向传播就是:把画拿给最后一个人看(求取误差),然后最后一个人就会告诉前面的人下次描述时需要注意哪里(权值修正)一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。目的是更新神经元参数,而神经元参数正是 z=wx+b 中的 (w,b).对参数的更新,利用损失值loss对参数的导数, 并沿着负梯度原创 2021-07-19 12:47:40 · 321 阅读 · 1 评论 -
标签平滑相关
标签平滑原创 2021-06-15 19:37:16 · 149 阅读 · 0 评论 -
半监督回归
大致分为三类:1、基于流行学习的半监督回归算法。流行学习方法的研究大都着眼于样本结构信息,通过挖掘样本蕴含的结构信息,进而提高算法性能。2、协同训练算法。协同训练的主要思路是对有标签样本建立两个学习器,在假设数据存在双视图的前提下,通过相互学习,逐步提高每个学习器的精度,从而实现对无标签样本信息的准确预测,进而达到提升模型精度的目的。3、半监督思想能够与其他典型方法结合,充分发挥原有方法的优势和半监督思想的特点,在相关领域也有相应的成果。基于流行学习的半监督回归算法协同训练算法半监督回归置信度判原创 2021-07-02 22:22:06 · 1935 阅读 · 0 评论 -
wordpiece
一、原创 2021-06-28 14:20:24 · 703 阅读 · 0 评论 -
深度学习优化器
一、原创 2021-06-28 14:19:54 · 60 阅读 · 0 评论 -
Transformer
Transformer原创 2021-06-15 15:23:53 · 129 阅读 · 0 评论 -
反向传播BP
包括常见面试题原创 2021-06-15 10:48:32 · 79 阅读 · 0 评论 -
MixText
前言在少样本的半监督训练场景下,为避免过拟合现象,数据增强技术显得尤为重要。深度学习视觉领域中,我们对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据是离散的,我们很难通过简单的转换来生成大量语义不变的扩充样本。那么,如何攻克文本数据增强这一难题,在标注数据有限的情况下提高模型的泛化能力呢?一、背景1.基于少量标记数据的半监督学习尽管深度学习模型往往表现很好,但通常是基于大量有标签数据的监督学习。当数据只有少量有限的标签时,就会出现过拟合现象,转载 2021-05-19 21:50:10 · 268 阅读 · 0 评论 -
Word2Vec
Word2Vec1Word2Vec2原创 2021-05-14 10:58:08 · 129 阅读 · 0 评论 -
Bert
Bert原创 2021-05-14 10:55:52 · 77 阅读 · 0 评论 -
什么是多层感知机MLP(ANN)和反向传播?
多层感知机MLP(Multi Layer Perceptron )是一种特定的人工神经网络(Artificial Neural Networks)在认识MLP之前,我们先回顾下前馈神经网络。1、 前馈神经网络前馈神经网络是最先发明也是最简单的人工神经网络 。它包含了安排在多个层中的多个神经元(节点)。相邻层的节点有连接或者边(edge)。所有的连接都配有权重。下面是一个例子:一个前馈神经网络可以包含三种节点:输入节点(Input Nodes):输入节点从外部世界提供信息,总称为「输入层」。在输原创 2021-05-14 10:10:36 · 4349 阅读 · 0 评论 -
无监督学习 自编码器(AutoEncoder)
自编码器(Autoencoder)介绍自编码简单模型介绍暂且不谈神经网络、深度学习等,仅仅是自编码器的话,其原理其实很简单。自编码器可以理解为一个试图去还原其原始输入的系统。自编码器模型如下图所示。神经网络自编码模型神经网络自编码器三大特点自编码器(Autoencoder)搭建几种常见AutoEncoderDenoising AutoEncoderSparse AutoEncoderCNN/LSTM AutoEncoderVariational AutoE原创 2021-05-10 18:41:44 · 1409 阅读 · 1 评论 -
GRU原理理解
1. 什么是GRUGRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU和LSTM在很多情况下实际表现上相差无几,那么为什么我们要使用新人GRU(2014年提出)而不是相对经受了更多考验的LSTM(1997提出)呢。在我们的实验中选择GRU是因为它的实验效果与LSTM相似,但是更易于计算。简单来说就转载 2020-07-30 17:13:02 · 24655 阅读 · 5 评论 -
LSTM原理详解
0. 从RNN说起循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。1. 普通RNN先简单介绍一下一般的RNN。其主要形式如下图所示(图片均来自台大李宏毅教授的PPT):2. LSTM2.1 什么是LSTM长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,原创 2020-07-30 16:09:29 · 67807 阅读 · 5 评论 -
RNN循环神经网络(非常好理解)
神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下:将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特定的y,那么既然有了这么强大的模型,为什么还需要RNN(循环神经网络)呢?**为什么需要RNN(循环神经网络)**他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这原创 2020-07-27 10:41:27 · 2126 阅读 · 0 评论