Deep Learning
文章平均质量分 96
rogeroyer
要么庸俗,要么孤独。
展开
-
论文笔记之《Pre-trained Language Model for Web-scale Retrieval in Baidu Search》
预训练语言模型在百度搜索中的应用原创 2022-08-02 17:10:31 · 1265 阅读 · 1 评论 -
Layer/Batch/Instance Normalization
总览图中N表示batch,C表示CV中的通道(NLP中的序列长度、时间步),如果是图像则【H,W】表示每个通道下二维像素矩阵的高和宽,NLP中就只有一维特征向量。Batch Norm依赖Batch,对【Batch, H, W】三个维度做标准化;Layer Norm不依赖Batch,对【C,H,W】三个维度做标准化。Instance Norm既不受Batch也不受其它通道的影响,只对【H,W】两个维度做标准化。三种标准化的表示式形式都相同,其区别在于xxx的表示不同,其公式如下:y=x−E[x]Var原创 2020-12-15 11:28:29 · 516 阅读 · 0 评论 -
使用PyTorch微调ALBERT中文预训练模型
OverviewALBERT简介Embedding因式分解层间参数共享句子间关联损失ALBERT系列&Bert比较transformers简介tf模型转torch模型torch实现微调ALBERT参考文献ALBERT简介 通常情况下,增加预训练模型大小会带来效果的提升;然而,当模型大小达到一定的程度之后,就很难再进行了,因为受到了GPU内存和训练时间的限制。为了减小模型参数和模型训练时间,ALBERT提出了两种解决方法。ALBERT也是采用和Bert一样的Transformer的Encod原创 2020-07-05 21:29:53 · 8189 阅读 · 3 评论 -
win10 NVIDIA GeForce GTX 950M安装tensorflow_gpu_1.9.0、torch_1.1.0和paddlepaddle1.5.1
迫于计算需求,最近将笔记本上的GPU也利用了起来。CUDA+CuDNN+TensorFlow部分参考了博文,感谢博主让我少走了很多弯路。Torch部分尝试了多种方法未果,最后凭借经验完成了torch1.1.0和torchvision0.4.1的安装。硬件配置显卡:NVIDIA GeForce GTX 950MPython:3.6.2CUDA:9.0 -> cuda_9.0.17...原创 2020-03-22 09:40:01 · 1537 阅读 · 0 评论 -
Keras-backend&weights&layer&loss&output-笔记
本篇博文旨在保存笔记,以便日后查阅,如有不当之处,敬请指出!backendKeras 是一个模型级库,为开发深度学习模型提供了高层次的构建模块。它不处理诸如张量乘积和卷积等低级操作。而我们常常在自定义损失函数或者评价指标时需要对张量进行一些操作,此时就需要借助keras的后端接口调用,实现像tensorflow里面的那些张量操作。本文以tensorflow作为后端为例。首先,导入keras的...原创 2020-03-20 20:07:07 · 538 阅读 · 0 评论 -
注意力机制 Attention
注意力机制前沿注意力认知神经学中的注意力人工神经网络中的注意力机制Bi-LSTM + Attention + tensorflow参考文献前沿智慧的艺术是知道该忽视什么。 — 威廉·詹姆斯 根据通用近似定理,前馈网络和循环网络都有很强的能力。但由于优化算法和计算能力的限制,在实践中很难达到通用近似的能力。特别是在处理复杂任务时,比如需要处理大量的输入信息或者复杂的计算流程时,...原创 2019-05-28 21:01:13 · 2016 阅读 · 0 评论 -
Transformer & Bert
Transformer和Bert前沿TransformerTransformer 模型结构图Transformer的编码器解码器输入层位置向量Bert (Bidirectional Encoder Representations from Transformers)Bert总体框架Bert输入任务定制model参考文章前沿 谷歌在2017年发表了一篇论文名字教Attention Is All...转载 2019-05-30 21:56:53 · 1552 阅读 · 0 评论 -
fastText 文本分类
fastText文本分类什么是文本分类?安装使用fastText参考文献文本分类 文本分类是许多应用程序的核心问题,如垃圾邮件检测,情绪分析或智能回复。 在本教程中,我们将介绍如何使用fastText工具构建文本分类器。什么是文本分类? 文本分类的目标是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别。 这些类别可以是评论分数,垃圾邮件vs. 非垃圾邮件或输入文档...翻译 2019-05-22 21:59:53 · 508 阅读 · 0 评论 -
神经网络基础
神经网络基础前言前馈神经网络输入层隐藏层输出层隐藏单元激活函数感知器多层MLP链式法则实现反向传播激活函数Sigmoid 型函数Logistic 函数Tanh 函数修正线性单元带参数的ReLU神经网络正则化L1正则化和L2正则化Early StopDropout数据增强优化器参数初始化策略自适应学习率算法小批量梯度下降学习率衰减AdaGradRMSPropAdamBatch Normalizati...原创 2019-05-22 19:47:21 · 1027 阅读 · 0 评论 -
循环神经网络 & Text-RNN & RCNN
RNN series前沿循环神经网络简单循环神经网络参数学习循环神经网络中的梯度计算方式随时间反向传播算法实时循环学习算法长期依赖问题改进方案基于门控的循环神经网络长短期记忆网络(LSTM)门控循环单元网络(GRU)堆叠循环神经网络双向循环神经网络递归神经网络Text-RNNkeras 实现Text-RNNRCNNkeras实现RCNN参考文献前沿经验是智慧之父,记忆是智慧之母。 ...原创 2019-05-26 10:46:50 · 3127 阅读 · 0 评论 -
CNN到Text-CNN
CNN系列卷积神经网络卷积卷积层池化层(汇聚层)常用网络结构LeNet-5Inception 网络其它卷积方式转置卷积空洞卷积Text-CNN参考文献卷积神经网络 卷积神经网络(Convolutional Neural Network,CNN或ConvNet)是一种具有局部连接、权重共享等特性的深层前馈神经网络。卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时,会存在...原创 2019-05-24 17:53:38 · 303 阅读 · 0 评论 -
2018达观杯 - word2vec
什么是word2vec?word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。单词的向量化表示所谓的word vecto...转载 2019-04-09 21:11:31 · 435 阅读 · 0 评论 -
人脸识别小应用
人脸识别小项目系统功能要求输入一张人脸图片后识别出是具体某个人,验证集评价指标采用准确率。人脸库简介ORL人脸数据库共有40个不同年龄、不同性别和不同种族的对象,每个对象10副灰度图像,共计400副灰度图像,图像尺寸是92*112像素。人脸部分表情有变化,如笑与不笑、眼睛睁与不睁、眼镜戴与不戴等,是目前使用最为广泛的标准数据库。Yale 人脸数据库共有15个人,每人11副,...原创 2019-01-22 10:31:13 · 512 阅读 · 0 评论 -
tensorflow 保存/加载模型
错误来源最近在使用PyQt5做界面的时候,用Pycharm运行程序的时候遇到了这个错误Process finished with exit code -1073740791 (0xC0000409)上网查找解决方法原创 2019-01-17 17:09:50 · 10676 阅读 · 0 评论