深度学习
文章平均质量分 64
深度学习,通用深度模型介绍为主
jzwei023
这个作者很懒,什么都没留下…
展开
-
BERT的变种
bert以及bert各种变种概述原创 2023-02-20 23:37:26 · 542 阅读 · 0 评论 -
为啥word2vec的向量是静态的?
word2vec静态向量原创 2022-07-27 20:38:27 · 488 阅读 · 1 评论 -
多任务学习
原创 2021-04-07 22:27:49 · 44 阅读 · 0 评论 -
交叉熵和相对熵(KL散度)
信息量熵当一个事件发生的概率为 P(x),那么它的信息量是 -log(p(x))。那么熵就是信息量的期望。假如事件X有n种可能x1,x2,...,xn,发生xi的概率是p(xi),那么熵H(X)定义如下:对于0-1分布问题(二项分布的特例),熵的计算方法可以简化为如下算式:相对熵(KL散度)相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information d原创 2021-04-07 22:05:51 · 468 阅读 · 0 评论 -
半监督之Self-Training & Co-Training
Self-training利用已标注样本L,对未标注数据U进行标注用所有已标注样本L进行模型训练,得到模型F 利用F对未标注数据进行预测,将置信度高的数据放入到L集合中 重复1和2,直到所有数据被标注或者无置信度高的新标注数据Co-training利用已标注样本L,对未标注数据U进行标注数据分成2个view(比如根据2个特征维度划分),分别为L1和L2 进行模型训练,使用L1得到模型F1,使用L2得到模型F2 利用F1和F2分别对未标注数据U进行预测,把F1预测置信度高的数据.原创 2021-03-21 23:04:08 · 550 阅读 · 0 评论 -
Transformer理解
Attention Is All You Need模型结构从上图可以看出,transformer也是分encoder(左边部分)和decoder(右边部分)。一般编码组件部分由一堆编码器(encoder)堆叠(论文中是将6个编码器叠在一起)。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成。所有的编码器在结构上都是相同的,但它们没有共享参数。每个解码器都可以分解成两个子层,Multi-Head Attention 和Feed Forward层。解码器中也有Mu原创 2021-03-17 00:03:45 · 566 阅读 · 0 评论 -
深度学习在时空数据的应用
什么是时空数据(Spatio-Temporal Data, ST)在论文Deep learning for Spatio-Temporal Data Mining: A Survey中,将时空数据分成以下几种类型:1)事件数据事件数据包括在地点和时间发生的离散事件(例如城市中的犯罪事件和交通网络中的交通事故事件)。通常,事件的特征可以是点的位置和时间,分别表示事件发生的位置和时间。例如,犯罪事件的特征可以是这样的元组(ei,li,ti),其中ei是犯罪类型,li是犯罪发生的地点,ti是犯罪发..原创 2021-03-11 00:15:19 · 3557 阅读 · 0 评论 -
Batch Normalization & Layer Normalization
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift由于前一层的参数更新,所以这一层的输入(前一层的输出)的分布会发生变化,这种现象被称之为ICS。同样,这篇文章的观点认为BN work的真正原因,在与其将数据的分布都归一化到均值为0,方差为1的分布上去。因此,每一层的输入(上一层输出经过BN后)分布的稳定性都提高了,故而整体减小了网络的ICS。白化处理:a、降..原创 2021-03-08 23:35:19 · 90 阅读 · 0 评论 -
旋转不变性、尺度不变性
旋转不变性:只要对特征定义了方向,然后在同一个方向上进行特征描述就可以实现旋转不变性。尺度不变性:为了实现尺度不变性,需要给特征加上尺度因子。在进行特征描述的时候,将尺度统一就可以实现尺度不变性了。所谓的旋转不变性和尺度不变性的原理,就是我们在描述一个特征之前,将两张图像都变换到同一个方向和同一个尺度上,然后再在这个统一标准上来描述这个特征。同样的,如果在描述一个特征之前,将图像变换到同一个仿射尺度或者投影尺度上,那么就可以实现仿射不变性和投影不变性。卷积神经网络保证“位移、尺度、形..原创 2021-03-07 23:01:43 · 4679 阅读 · 0 评论 -
Snorkel-数据标注系统
在面临机器学习问题时,我们往往会面临两个问题:数据和算法(模型)。随着各种机器学习框架的完善,算法的应用门槛正在逐渐的降低。但数据的获取却仍然是一个费时费力的必需流程。在工作中,我们通常会面临如下问题:该任务有大量数据,但都没有可靠标签 该任务为新增需求,没有任何(或者很少)原始数据,但需要快速上线。这在快速迭代的产品开发中尤为常见,比如在分类系统中的新增类别 标注数据来源多样(不同的标注team或个人),数据中混杂了噪音 数据标注成本过高,或者没有标注人力 模型已经在某一应用场景中训练良好,现原创 2021-03-07 22:54:51 · 995 阅读 · 0 评论 -
自监督学习之对比学习
对比学习一般是自监督学习的一种方式什么是自监督学习自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。(也就是说自监督学习的监督信息不是人工标注的,而是算法在大规模无监督数据中自动构造监督信息,来进行监督学习或训练。因此,大多数时候,我们称之为无监督预训练方法或无监督学习方法,严格上讲,他应该叫自监督学习)。 原文作者:自编码器个人认为可以算作无监督学习,也可以算作自监督学.原创 2021-03-07 22:44:11 · 6188 阅读 · 0 评论