Layer/Batch/Instance Normalization 总览图中N表示batch,C表示CV中的通道(NLP中的序列长度、时间步),如果是图像则【H,W】表示每个通道下二维像素矩阵的高和宽,NLP中就只有一维特征向量。Batch Norm依赖Batch,对【Batch, H, W】三个维度做标准化;Layer Norm不依赖Batch,对【C,H,W】三个维度做标准化。Instance Norm既不受Batch也不受其它通道的影响,只对【H,W】两个维度做标准化。三种标准化的表示式形式都相同,其区别在于xxx的表示不同,其公式如下:y=x−E[x]Var
《Neural Collaborative Filtering》论文阅读笔记 本文的创新在于,使用神经网络框架来代替MF中的内积,将MF和MLP的线性以及非线性特点相结合,使用预训练参数来初始化模型,进一步提升模型性能。本文思路清晰,逻辑严谨,细节说明很到位,实验对比完整且比较有说服力,很值得学习。因此我将笔记整理出来分享一下,如果有不对的地方,多多包涵,尽请批评指出。目录摘要引言本文的贡献矩阵分解的限制神经协同过滤框架NCF优化方法通用矩阵分解多层感知机(MLP)通用矩阵分解和多层感知机的融合(NeuMF)预训练实验数据评价指标对比算法实验设置实验结果原论文开源代码地址结果复现
使用PyTorch微调ALBERT中文预训练模型 OverviewALBERT简介Embedding因式分解层间参数共享句子间关联损失ALBERT系列&Bert比较transformers简介tf模型转torch模型torch实现微调ALBERT参考文献ALBERT简介 通常情况下,增加预训练模型大小会带来效果的提升;然而,当模型大小达到一定的程度之后,就很难再进行了,因为受到了GPU内存和训练时间的限制。为了减小模型参数和模型训练时间,ALBERT提出了两种解决方法。ALBERT也是采用和Bert一样的Transformer的Encod
Numpy&Matplotlib笔记 numpy随机数np.random.rand(10, 10) // 创建指定形状(示例e为10行10列)的数组(范围在0-1之间)np.random.uniform(0, 100) // 创建指定范围内的一个数np.random.randint(0, 100) // 创建指定范围内的一个整数np.random.n...
win10 NVIDIA GeForce GTX 950M安装tensorflow_gpu_1.9.0、torch_1.1.0和paddlepaddle1.5.1 迫于计算需求,最近将笔记本上的GPU也利用了起来。CUDA+CuDNN+TensorFlow部分参考了博文,感谢博主让我少走了很多弯路。Torch部分尝试了多种方法未果,最后凭借经验完成了torch1.1.0和torchvision0.4.1的安装。硬件配置显卡:NVIDIA GeForce GTX 950MPython:3.6.2CUDA:9.0 -> cuda_9.0.17...
Keras-backend&weights&layer&loss&output-笔记 本篇博文旨在保存笔记,以便日后查阅,如有不当之处,敬请指出!backendKeras 是一个模型级库,为开发深度学习模型提供了高层次的构建模块。它不处理诸如张量乘积和卷积等低级操作。而我们常常在自定义损失函数或者评价指标时需要对张量进行一些操作,此时就需要借助keras的后端接口调用,实现像tensorflow里面的那些张量操作。本文以tensorflow作为后端为例。首先,导入keras的...
2019-CCF-BDCI-金融信息负面及主体判定-top1赛后分享 前言今年CCF-BDCI共有13道算法赛,其中涵盖了数据挖掘、自然语言处理、计算机视觉、数据库等多个方向;今年乘此机会参加了两个赛题,除了这个赛题还有另一个赛题【乘用车细分市场销量预测】,方案分享点此处。本赛题队友之前也分享过,传送门。本次比赛团队介绍赛题分析算法设计方案总结...
2019-CCF-BDCI-乘用车细分市场销量预测-top3赛后分享 写在前面,2019BDCI已经落幕数月,之前队友已做过分享,但我想这毕竟是我竞赛生涯为数不多的高光时刻,并且在今年BDCI竞赛中倾注了大量心血(比赛周期持续了三个月),再者很久没有写过博客了。好事多磨,从一开始担心进不了top到比赛中期霸榜之后对比赛的倦怠,再到复赛的跌跌撞撞、一路坎坷,没想到最终有幸取得top3,实属不易。感谢队友的永不言弃,也感谢比赛群中各位大佬的技术分享,也感谢曾经奋力拼搏...
Transformer & Bert Transformer和Bert前沿TransformerTransformer 模型结构图Transformer的编码器解码器输入层位置向量Bert (Bidirectional Encoder Representations from Transformers)Bert总体框架Bert输入任务定制model参考文章前沿 谷歌在2017年发表了一篇论文名字教Attention Is All...
注意力机制 Attention 注意力机制前沿注意力认知神经学中的注意力人工神经网络中的注意力机制Bi-LSTM + Attention + tensorflow参考文献前沿智慧的艺术是知道该忽视什么。 — 威廉·詹姆斯 根据通用近似定理,前馈网络和循环网络都有很强的能力。但由于优化算法和计算能力的限制,在实践中很难达到通用近似的能力。特别是在处理复杂任务时,比如需要处理大量的输入信息或者复杂的计算流程时,...
循环神经网络 & Text-RNN & RCNN RNN series前沿循环神经网络简单循环神经网络参数学习循环神经网络中的梯度计算方式随时间反向传播算法实时循环学习算法长期依赖问题改进方案基于门控的循环神经网络长短期记忆网络(LSTM)门控循环单元网络(GRU)堆叠循环神经网络双向循环神经网络递归神经网络Text-RNNkeras 实现Text-RNNRCNNkeras实现RCNN参考文献前沿经验是智慧之父,记忆是智慧之母。 ...
CNN到Text-CNN CNN系列卷积神经网络卷积卷积层池化层(汇聚层)常用网络结构LeNet-5Inception 网络其它卷积方式转置卷积空洞卷积Text-CNN参考文献卷积神经网络 卷积神经网络(Convolutional Neural Network,CNN或ConvNet)是一种具有局部连接、权重共享等特性的深层前馈神经网络。卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时,会存在...
fastText 文本分类 fastText文本分类什么是文本分类?安装使用fastText参考文献文本分类 文本分类是许多应用程序的核心问题,如垃圾邮件检测,情绪分析或智能回复。 在本教程中,我们将介绍如何使用fastText工具构建文本分类器。什么是文本分类? 文本分类的目标是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别。 这些类别可以是评论分数,垃圾邮件vs. 非垃圾邮件或输入文档...
神经网络基础 神经网络基础前言前馈神经网络输入层隐藏层输出层隐藏单元激活函数感知器多层MLP链式法则实现反向传播激活函数Sigmoid 型函数Logistic 函数Tanh 函数修正线性单元带参数的ReLU神经网络正则化L1正则化和L2正则化Early StopDropout数据增强优化器参数初始化策略自适应学习率算法小批量梯度下降学习率衰减AdaGradRMSPropAdamBatch Normalizati...
2018达观杯 - word2vec 什么是word2vec?word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。单词的向量化表示所谓的word vecto...
二叉排序树和平衡二叉树 二叉排序树什么是二叉排序树?二叉排序树又称二叉查找树二叉排序树(Binary Sort Tree)或者是一棵空树;或者是具有下列性质的二叉树;(1)若它的左子树不空,则左子树上所有节点的值均小于它的根结点的值;(2)若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值;(3)它的左、右子树也分别为二叉排序树。中序遍历二叉排序树可得到一个关键字的有序序列。平衡二叉树平衡二叉树(B...
最小生成树 序言假设要在n个城市之间建立一个通信联络网,则联通 n 个城市只需要 n-1 条线路。这时,自然会考虑这样一个问题,如何在最节省经费的前提下建立这个通信网。在每两个城市之间都可以设置一条线路,相应的都要付出一定的经济代价。n 个城市之间,最多可能设置 n(n - 1) / 2 条线路,那么,如何在这些可能的线路中选择 n - 1 条,以使总的耗费最少呢?这个问题就是构造连通网的最小代价生成树(M...