深度学习
文章平均质量分 78
muyuu
这个作者很懒,什么都没留下…
展开
-
ChatGPT原理解读
chagpt 算法介绍原创 2023-03-02 16:18:21 · 6161 阅读 · 0 评论 -
神经网络与深度学习6---网络优化与正则化
网络优化与正则化参数初始化为什么不能将参数初始化为全零本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第7章:网络优化与正则化 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。参数初始化为什么不能将参数初始化为全零以一个三层网络为例:其中z4=w14∗x1+w24∗x2+w34∗x3+b4z5=w15∗x1+w25∗x2+w35∗x3+b5z6=w16∗x1+w26∗x2+w36∗x3+b6z_4=w_{14}∗x_1+w_{24}∗x_2+w_{34}∗原创 2022-09-02 17:53:03 · 443 阅读 · 0 评论 -
非root用户安装cuda与cudnn
非root用户安装cuda与cudnnubuntu非root用户安装CUDA以及cuDNN转载 2022-04-13 23:11:38 · 451 阅读 · 0 评论 -
Word2vec结构详解及原理推导
目录统计语言模型神经概率语言模型Word2vecHierarchical SoftmaxHuffman 树CBOW 和 Skip-gramNegative SamplingCBOW 和 Skip-gram由于 Word2Vec 本质其实是一个语言模型,词向量只是这个语言模型的副产物,因此我们首先简单看一下语言模型:统计语言模型语言模型其实就是计算一个句子出现的概率,例如:我明天早上要去上学明天去上学我要早上我名天枣上要去尚学那么一个好的语言模型应该会让句子1的概率大于句子2和句子3。具体来原创 2022-04-05 20:52:46 · 1532 阅读 · 0 评论 -
神经网络与深度学习7---注意力机制与seq2seq模型
目录注意力评分函数基于循环神经网络的seq2seq模型本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第8章:注意力机制与外部记忆 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。注意力评分函数以下为注意力机制的流程图,查询 q\boldsymbol qq 通过注意力评分函数 aaa 与键 k\boldsymbol kk 作用,并通过softmax得到对应 k\boldsymbol kk 的概率分布值,最后这些概率分布值与值 v\boldsymbol vv 做加权原创 2022-03-29 10:59:07 · 1454 阅读 · 0 评论 -
Transfomer矩阵维度分析及MultiHead详解
目录参数量各结构解析训练阶段Encoder Multihead Attention解读Transformer就离不开下面这张图:不同于之前的基于rnn的seq2seq模型,Transfomer完全摒弃了循环神经网络的结构:encoder层: {多头自注意力 + 前馈网络} ×n\times n×ndecoder层: {掩蔽多头自注意力 + encoder-decoder多头自注意力 + 前馈网络} ×n\times n×n下面我们介绍Transformer模型中的参数变化情况:参数量对于原创 2022-03-21 17:19:42 · 2784 阅读 · 1 评论 -
keras.losses中 reduction=‘none‘的用法
以循环神经网络为例,pred的形状是 (batch_size, num_steps, vocab_size),label的形状是 (batch_size, num_steps)。计算预测值与真实值的损失:tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')(label, pred)reduction key的可选值‘none’:每个step位置的损失都单独保留。返回值的形状为:(batch_s原创 2022-02-28 21:49:36 · 2022 阅读 · 0 评论 -
神经网络与深度学习5---循环神经网络
循环神经网络循环神经网络参数量梯度不稳定性(长程依赖)本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第6章:循环神经网络 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。循环神经网络传统的前馈神经网络在处理带有时序的数据(例如文本,语音等)时往往能力有限:1. 由于其全连接的结构使得无法学到数据的时序信息,2. 时序数据的输入长度通常是不定的,而前馈神经网络的输入是定长的。针对以上这些特性,研究员们推出了一类称为 循环神经网络 的深度模型结构。其主要模块结构如下原创 2022-02-27 21:03:38 · 612 阅读 · 0 评论 -
keras.losses中from_logits的作用
目录tf.keras.lossesfrom_logits=True 的作用tf.keras.lossesfrom_logits=True 的作用以 SparseCategoricalCrossentropy(from_logits=True) 为例,读keras源码,发现 losses.py 中定义的 SparseCategoricalCrossentropy 实际上调用的是 backend.py 中的 sparse_categorical_crossentropy 函数,代码当中有如下一段:eli原创 2022-02-10 22:36:13 · 2871 阅读 · 0 评论 -
利用conda安装tensorflow2.0 和 pytorch(带镜像)
进入Anaconda Prompt基于 python 3.6 创建虚拟环境:conda create --name tensorflow python=3.6激活创建的环境:activate tensorflow安装 tensorflow 2.0 :pip install tensorflow==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple测试是否安装成功:进入python: python导入tensorflow:import tenso.原创 2021-12-13 16:34:50 · 1991 阅读 · 0 评论 -
CNN中的translation equivariant和translation invariant
目录等变性 equivariant不变性 invraiantCNN的 等变、不变等变性 equivariant通俗解释:对于一个函数,如果你对其输入施加的变换也会同样反应在输出上,那么这个函数就对该变换具有等变性。更严谨些:对于一个函数特征fff以及一个变换ggg, 如果我们有:f(g(x))=g(f(x))f(g(x)) = g(f(x))f(g(x))=g(f(x))则称fff对变换ggg有等变性。举一个例子,假设我们的变换ggg是将图像向右平移一段距离,我们的函数fff是检测一个人脸的位置(转载 2021-09-08 16:07:09 · 797 阅读 · 0 评论 -
ELMo,GPT, Bert, XLNet 预训练模型对比
Context Based预训练编码器1:自回归语言模型(Decoder-AutoRegression)ELMoELMo简介ELMo的缺点GPTGPT简介GPT的缺点:2:自编码语言模型(Encoder-AutoEncoding)BERTBert的Pretrain:Bert的Fine-tuningBERT的缺点:3:排列语言模型(Encoder-AutoEncoding)XLNetXLNet的构思待研究的部分实验与预训练编码器对应的是word2vec,glove等浅层词嵌入,这类浅层词嵌入特点是学习到一个原创 2020-11-30 15:36:47 · 846 阅读 · 0 评论 -
NLP位置编码
位置编码原创 2021-01-26 17:35:48 · 2117 阅读 · 3 评论