lzmmmQAQ-CSDN博客

原创 Panda 知识点总结带代码（上）

文章目录一. Pandas Series结构1）创建Series对象1 .创建空Series对象2.ndarray创建Series对象3.dict创建Series对象4.标量创建Series对象2）访问Series数据3）Series常用属性4）Series常用方法1.head()&tail()查看数据2.isnull()&nonull()检测缺失值二.Pandas DataFrame 结构1）创建DataFrame对象1.创建空的DataFrame对象2.列表创建DataFame对象3.字

2021-12-24 22:01:58 1673

原创 Batch Normalization 批量归一化

文章目录为什么要Batch Normalization？Batch Normalization的好处？不用sigmoid还用Normalization????？为什么要Batch Normalization？这是由于Sigmoid的特性由于在多层神经网络，后面的X会很容易很大，所以sigmoid会趋近与无穷，而sigmoid趋近与无穷时，梯度的下降会变得很小，我们很难训练神经网络而Batch Normalization就是为了解决，把X的取值拉回到-5到-5这个区间，这样才有比较好的非线性性Ba

2021-12-21 20:45:45 578

原创 AlexNet论文小笔记

是用了深度卷积网络(Deep Convolutional Neural Networks)https://www.cs.ryerson.ca/~aharley/vis/conv/使用Relu快六倍文章目录The ArchitectucreThe Architectucre

2021-12-19 09:45:53 755

原创动手深度学习v2 汇聚层pooling 课后习题

文章目录1.你能将平均汇聚层作为卷积层的特殊情况实现吗？2.你能将最大汇聚层作为卷积层的特殊情况实现吗？3.假设汇聚层的输入大小为 c×h×w ，则汇聚窗口的形状为 ph×pw ，填充为 (ph,pw) ，步幅为 (sh,sw) 。这个汇聚层的计算成本是多少？4.为什么最大汇聚层和平均汇聚层的工作方式不同？5.我们是否需要最小汇聚层？可以用已知函数替换它吗？6.除了平均汇聚层和最大汇聚层，是否有其它函数可以考虑（提示：回想一下softmax）？为什么它不流行？1.你能将平均汇聚层作为卷积层的特殊情况实现吗

2021-12-17 20:10:30 1742 2

原创动手深度学习v2 多输入多输出通道课后习题

文章目录1.多输入多输出通道2.假设输入为 ci×h×w ，卷积核大小为 co×ci×kh×kw ，填充为 (ph,pw) ，步幅为 (sh,sw) 。3.如果我们将输入通道 ci 和输出通道 co 的数量加倍，计算数量会增加多少？如果我们把填充数量翻一番会怎么样？4.如果卷积核的高度和宽度是 kh=kw=1 ，前向传播的计算复杂度是多少？5.本节最后一个示例中的变量Y1和Y2是否完全相同？为什么？6.当卷积窗口不是 1×1 时，如何使用矩阵乘法实现卷积？1.多输入多输出通道假设我们有两个卷积核，大小分

2021-12-15 19:25:58 4932 3

原创动手深度学习v2 图像卷积课后习题

文章目录1.构建一个具有对角线边缘的图像X。1.构建一个具有对角线边缘的图像X。1.如果将本节中举例的卷积核K应用于X，会发生什么情况？2.如果转置X会发生什么？3.如果转置K会发生什么？都是zero matrix.2.在我们创建的Conv2D自动求导时，有什么错误消息？我们传讲的Conv2D智能算2D的3.如何通过改变输入张量和卷积核张量，将互相关运算表示为矩阵乘法？4.手工设计一些卷积核：二阶导数的核形式是什么？积分的核形式是什么？得到 d 次导数的最小核大小是多少？..

2021-12-14 16:25:20 3614

原创动手深度学习v2 从全连接到卷积课后习题

文章目录1.假设卷积层 (6.1.3)覆盖的局部区域 Δ=0 。在这种情况下，证明卷积内核为每组通道独立地实现一个全连接层。2.为什么平移不变性可能也不是好主意呢？3.当从图像边界像素获取隐藏表示时，我们需要思考哪些问题？4.描述一个类似的音频卷积层的架构。5.卷积层也适合于文本数据吗？为什么？6.证明在 (6.1.6)中， f∗g=g∗f 。前言：记录自己学习的过程1.假设卷积层 (6.1.3)覆盖的局部区域 Δ=0 。在这种情况下，证明卷积内核为每组通道独立地实现一个全连接层。这个没有很get到，

2021-12-13 22:34:34 2397

原创动手深度学习v2 kaggle房价基础知识理解

文章目录为什么要优化？优化方法为什么要使lr动态化Adam前言在沐神的动手深度学习中v2的房价预测中，第一次遇到了adam优化，对于小白的我，肯定没听过adam什么的，所以就上网查了一下。补了下知识。为什么要优化？在神经网络中，我们通常都用梯度下降法来更新参数，但是这会有个弊端——计算量会很大。假如你有一张1080x1920的图片，在加上RGB，就等于6220800，所以人们就想了两个办法1.从神经网络结构出发，增加池化层，dropout等2.从梯度下降本身出发下面重点在第二个优化方法

2021-12-11 17:41:05 716

原创西瓜书机器学习第五章读书笔记

文章目录前言5.1 神经元模型5.2 感知机和多层网络5.3 误差逆传播算法5.4 全局最小和局部最小前言新手，记录一下自己的理解，也是读书笔记，并不进行公式推导。(公式推导的视频也很多)5.1 神经元模型神经网络是 T.Kohonen在1988给出的定义因为阶跃函数的不连续和不光滑，所以我们的激活函数通常会采用sigmoid。5.2 感知机和多层网络为什么要引入感知机和多层网络？在简单的处理中，比如与，或，非，如果W求的不好，容易发生震荡。其次单层神经元无法解决更复杂的问题，比如异或。

2021-12-07 22:21:22 773

原创动手深度学习v2 层和块课后习题基于Pytorch

文章目录一.层和块1.如果将MySequential中存储块的方式更改为Python列表，会出现什么样的问题？2.实现一个块，它以两个块为参数，例如net1和net2，并返回前向传播中两个网络的串联输出。这也被称为平行块。3.假设你想要连接同一网络的多个实例。实现一个函数，该函数生成同一个块的多个实例，并在此基础上构建更大的网络一.层和块1.如果将MySequential中存储块的方式更改为Python列表，会出现什么样的问题？这个问题想了很久，也查了。还是没想到合适的。开始想的是会不会产生地址冲突，

2021-12-06 15:34:23 1861 3

原创激活函数的作用

在我看过的几个视频里在神经网络里都讲了激活函数，当时的理解就仅限于他们说的，如果不加激活函数的话，很多层隐藏层也还就是相当于一层。那就是线性网络。当时的理解只是为什么不用，当是没去想为什么要用。后来简单想了下。其实也不难，只是自己没想。打个比方，加入要对猫和狗进行分类这样就比较只管了。...

2021-12-04 23:04:28 261

原创动手深度学习v2 权重衰减公式理解拉格朗日和正则化的理解之一

文章目录前言一.什么是正则化(regularization)1. 为什么要用l1和l2 范数二.神经网络为什么会产生过拟合（原因之一）1.W和b参数值不唯一？三.拉格朗日的'介入'l1 范数和l2范数的特点前言这次看见沐神讲的权重衰退，权重衰退就是为了处理过拟合的现象，但是一下抛出来这个公式就是不是很理解，还和拉格朗日有关，作为高数早忘的我就查了一下，在b站这个大神讲的还不错，我就整理了一下，从三个角度去理解，我暂时就整理了第一个。L1和L2正则化”直观理解(之一)，从拉格朗日乘数法角度进行理解一

2021-12-03 17:05:49 896 1

原创动手深度学习v2 多层感知机和从零开始实现部分习题

1.计算pReLU激活函数的导数。2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分段线性函数。3.证明 tanh(????)+1=2sigmoid(2????) 。4.假设我们有一个非线性单元，将它一次应用于一个小批量的数据。你认为这会导致什么样的问题？1.计算pReLU激活函数的导数。pReLU(????)=max(0,????)+????min(0,????).x大于零是为1，小于零时为????2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分

2021-11-30 18:22:40 4361 4

原创动手深度学习v2 线性神经网络代码分析基于pytorch

文章目录前言一、线性回归的从零开始实现1.引入库2.生成数据集3. 读取数据集4.初始化模型参数5.定义模型6.训练二、线性回归的简洁实现1.读取数据集2.定义模型3.初始化模型参数4. 定义损失函数5.定义优化算法6.训练总结前言记录沐神动手深度mj学习的过程，欢迎指出错误。????分析动手深度学习的代码这里的一、线性回归的从零开始实现1.引入库%matplotlib inlineimport randomimport torchfrom d2l import torch as

2021-11-30 10:32:35 580

原创动手深度学习v2 softmax回归的从零开始实现作业基于pytorch

1.在本节中，我们直接实现了基于数学定义softmax运算的softmax函数。这可能会导致什么问题？提示：尝试计算 exp(50) 的大小。2.本节中的函数cross_entropy是根据交叉熵损失函数的定义实现的。这个实现可能有什么问题？提示：考虑对数的定义域。3.你可以想到什么解决方案来解决上述两个问题？4.返回概率最大的标签总是一个好主意吗？例如，医疗诊断场景下你会这样做吗？5假设我们希望使用softmax回归来基于某些特征预测下一个单词。词汇量大可能会带来哪些问题?1.在本节中，我们直接

2021-11-28 17:51:19 2720