深度学习
本专栏是深度学习领域论文笔记系列。
张雨石
程序猿,科幻迷,力求做一枚文青
展开
-
DIEN: 阿里点击率预估之深度兴趣进化网络
广告推荐算法系列文章:莫比乌斯: 百度的下一代query-ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN: 阿里点击率预估之深度兴趣网络基于Delaunay图的快速最大内积搜索算法DIEN: 阿里点击率预估之深度兴趣进化网络EBR: Facebook基于向量的检索阿里巴巴电商推荐之十亿级商品embeddingOverall这篇文章所介绍的模型,用于在用户没有输入搜索词来表达意图的时候,给用户推荐商品的场景。这里的收费方式一般是CPC,即Cost per Click,每次点击收原创 2020-10-28 11:17:26 · 1624 阅读 · 1 评论 -
DIN: 阿里点击率预估之深度兴趣网络
广告推荐算法系列文章:莫比乌斯: 百度的下一代query-ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN: 阿里点击率预估之深度兴趣网络DIEN: 阿里点击率预估之深度兴趣进化网络本文的知识点来源于参考文献[1],是阿里巴巴2018年在KDD上的论文。本文可以视为Attention机制在推荐系统上的应用。对Attention机制不了解的同学可以看下面的文章进行学习。Transformer: Attention的集大成者Bert系列背景-推荐模型正如我们在分布式层次GPU参原创 2020-10-20 17:22:46 · 1042 阅读 · 0 评论 -
Federated Learning: 问题与优化算法
工作原因,听到和使用Federated Learning框架很多,但是对框架内的算法和架构了解不够细致,特读论文以记之。这个系列计划要写的文章包括:Federated Learning: 问题与优化算法Federated Learning: 架构OverallFederated Learning, 中文翻译是联合学习,或者很多人翻译成联邦学习,是一种在移动端训练模型的框架。不知为何,翻译成联邦学习总让我有点笑场,就像one-hot编码被翻译成独热编码一样。难不成以后还有帝国学习,共和国学习原创 2020-10-20 17:06:30 · 2797 阅读 · 2 评论 -
Transformer优化之稀疏注意力
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-10-01 10:12:43 · 6837 阅读 · 1 评论 -
Roberta: Bert调优
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-30 12:02:24 · 2465 阅读 · 0 评论 -
莫比乌斯: 百度的下一代query-ad匹配算法
本文介绍的内容来自于百度在KDD2019上的论文[1].众所周知,百度、头条乃至于Google、Facebook的主要营收点在广告。广告业务的成败关系着众多互联网公司的生死。由于广告存量的巨大,目前的需求是平均每次query需要从上亿的广告中筛选出相关的出来。因而目前百度现在的广告匹配算法采取三层结构:当用户进行查询的时候,跟Search类似,需要对query做后处理,包括query rewriting、query expansion和semantic matching。然后使用快速查询的算法在上原创 2020-09-29 00:11:25 · 700 阅读 · 0 评论 -
Electra: 判别还是生成,这是一个选择
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-29 00:00:12 · 669 阅读 · 0 评论 -
Bert: 双向预训练+微调
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-28 23:49:22 · 3047 阅读 · 1 评论 -
GPT-1 & 2: 预训练+微调带来的奇迹
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-28 23:29:24 · 2866 阅读 · 1 评论 -
炼丹术的终结——神经网络结构搜索之一
深度学习在2010年燃起来以后,较大的革新集中出现在网络结构上。例如,在图像领域,出现了AlexNet, VGG, GoogNet, Inception系列,Res-Net,DenseNet和MobileNet等不同的卷积神经网络;在文本处理领域,出现了RNN,GRU,LSTM等不同的循环神经网络结构。再加上在不同的网络结构中的调参(层数,每层的单元数,卷积核的大小,卷积核的stride的大小等等...原创 2018-04-10 00:23:14 · 12120 阅读 · 3 评论 -
Transformer: Attention的集大成者
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系,以下是要写的文章,本文是这个系列的第一篇, 目前已有其他篇章放在公众号【雨石记】上,欢迎点击下面目录任何一个链接转往公众号:Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型原创 2020-08-29 00:07:16 · 751 阅读 · 0 评论 -
感知损失(Perceptual Losses)
图像风格转换算法将图片生成以生成的方式进行处理,如风格转换,是从一张噪音图(相当于白板)中得到一张结果图,具有图片A的内容和图片B的风格。而Perceptual Losses则是将生成问题看做是变换问题。即生成图像是从内容图中变化得到。原创 2017-01-04 22:36:29 · 70530 阅读 · 6 评论 -
DeepID2——强大的人脸分类算法
本文是论文Deep Learning Face Representation by Joint Identification-Verification的阅读笔记。这篇论文使用deep learning学习特征,使用联合贝叶斯模型作为分类器,选取七组特征分别训练分类器,得到的结果使用SVM进行组合,得到的最终模型在LFW(Labeled Face in the Wild)数据集上的人脸验证任务中,达到了99.15%的准确率,目前排名第一。原创 2014-11-26 00:16:09 · 32892 阅读 · 10 评论 -
对抗生成网络(Generative Adversarial Net)
现在,生成模型还没有体会到深度学习的利好,在Discriminative模型上,成果如雨后春笋,但在生成模型上,却并非如此。原因如下:- 在最大似然估计及相关策略上,很多概率计算的模拟非常难- 将piecewise linear units用在生成模型上比较难那么,是不是生成模型就借不了深度学习发展的东风了呢?我只能说,有的时候,不得不曲线救国。原创 2016-11-13 19:59:45 · 69294 阅读 · 7 评论 -
FaceNet--Google的人脸识别
引入随着深度学习的出现,CV领域突破很多,甚至掀起了一股CV界的创业浪潮,当次风口浪尖之时,Google岂能缺席。贡献出FaceNet再刷LFW上人脸验证的效果新高FaceNet与其他的深度学习方法在人脸上的应用不同,并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类。原创 2015-06-29 21:39:22 · 83326 阅读 · 15 评论 -
DeepFace--Facebook的人脸识别
连续看了DeepID和FaceNet后,看了更早期的一篇论文,即FB的DeepFace。这篇论文早于DeepID和FaceNet,但其所使用的方法在后面的论文中都有体现,可谓是早期的奠基之作。因而特写博文以记之。原创 2015-07-06 16:49:36 · 42649 阅读 · 9 评论 -
二值神经网络(Binary Neural Network,BNN)
在我刚刚过去的研究生毕设中,我在ImageNet数据集上验证了图像特征二值化后仍然具有很强的表达能力,可以在检索中达到较好的效果。而Bengio大神的这篇文章,则不止于将特征二值化,而是要将权重和每层的激活值统统二值化。相比于非二值化的网络,将大量的数学运算变成了位操作。这样就节省了大量的空间而前向传播的时间,使神经网络的应用门槛变得更低。原创 2016-03-18 20:00:37 · 59973 阅读 · 17 评论 -
决策森林和卷积神经网络二道归一
现在有很多人认为神经网络可以和人脑中的机制相似。我却认为,或许人脑中有的机制与此类似,但一定是一个复杂的系统。但我们其实可以完全不必模仿人脑的构造,因为人工建立的智能一定比人脑在各个方面都要强上百倍,也正如学飞行不能看雄鹰振翅而是空气动力学一样。因为我的如此认识,所以当我看到有一片论文是将决策森林和卷积神经网络糅合到一起的时候,我感觉到`something is more close.`原创 2016-03-27 19:04:35 · 14143 阅读 · 2 评论 -
Inception in CNN
之前也写过GoogLeNet的笔记,但那个时候对Inception有些似懂非懂,这周重新看了一遍,觉得有了新的体会,特地重新写一篇博客与它再续前缘。原创 2016-04-03 23:57:28 · 56489 阅读 · 13 评论 -
parameter_server架构
现在的机器学习系统,但凡是大一点的公司,恐怕都在用分布式了。而在分布式机器学习领域,最出名的恐怕就是少帅的PS框架了。 读了一些原始论文,我试着来理解一下。原创 2016-04-25 14:06:37 · 21688 阅读 · 2 评论 -
ReLU上的花样
ReLU的有效性体现在两个方面:克服梯度消失的问题加快训练速度而这两个方面是相辅相成的,因为克服了梯度消失问题,所以训练才会快。原创 2016-05-15 22:22:09 · 13247 阅读 · 0 评论 -
图像风格转换(Image style transfer)
图像风格转换是最近新兴起的一种基于深度学习的技术,它的出现一方面是占了卷积神经网络的天时,卷积神经网络所带来的对图像特征的高层特征的抽取使得风格和内容的分离成为了可能。另一方面则可能是作者的灵感,内容的表示是卷积神经网络所擅长,但风格却不是,如何保持内容而转换风格则是本文所要讲述的。原创 2016-12-20 23:39:41 · 61146 阅读 · 5 评论 -
深度卷积对抗生成网络(DCGAN)
卷积神经网络在有监督学习中的各项任务上都有很好的表现,但在无监督学习领域,却比较少。本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起。原创 2016-12-25 20:31:35 · 97536 阅读 · 10 评论 -
Adam:大规模分布式机器学习框架
Adam是微软研究院的深度学习项目,该项目仍然是应用卷积神经网络进行图像分类,效果提高了很多,但从我读论文的角度看,adam更偏向于分布式框架的实现,而非理论的创新,自Alex和Hinton在2012年发出[2]以后,其实卷积神经网络的核心并没有大改,然而将卷积神经网络从学术界引领到工业界,我觉得adam的贡献匪浅。原创 2015-06-29 01:04:39 · 16512 阅读 · 1 评论 -
tensorflow架构
TensorFlow,以下简称TF,是Google去年发布的机器学习平台,发布以后由于其速度快,扩展性好,推广速度还是蛮快的。江湖上流传着Google的大战略,Android占领了移动端,TF占领神经网络提供AI服务,未来的趋势恰好是语音图像以及AI的时代,而Google IO上发布的Gbot似乎正是这一交叉领域的初步尝试。原创 2016-06-12 12:49:08 · 63616 阅读 · 9 评论 -
卷积神经网络
自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前,先说几点自己对于CNN的感触。先明确一点就是,Deep Learning是全部深度学习算法的总称,CNN是深度学习算法在图像处理领域的一个应用。第一点,在学习Deep learning和CNN之前,总以为它们是很了不得的知识,总以为它们原创 2014-11-29 16:20:41 · 313540 阅读 · 76 评论