处女座_三月-CSDN博客

原创深度学习中的优化算法（Pytorch 18）

使我们能够继续更新模型参数。这就像在训练集上评估一样。事实上，任何满足于将优化视为黑盒装置，以在简单的设置中最小化目标函数的人，都可能会知道存在着一系列此类“咒语”（名称如“SGD”和“Adam”）。但是，为了做得更好，还需要更深入的知识。优化算法对于深度学习非常重要。一方面，训练复杂的深度学习模型可能需要数小时、几天甚至数周。。另一方面，了解。深度学习中出现的几乎所有优化问题都是非凸的。尽管如此，在凸问题背景下设计和分析算法是非常有启发性的。对于深度学习问题，我们通常会先定义损失函数。。

2024-05-18 22:07:10 642

原创自注意力架构大成者_Transformer（Pytorch 17）

在上节比较了卷积神经网络（CNN）循环神经网络（RNN）和自注意力（self‐attention）。值得注意的是，自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此，使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 (Cheng et al., 2016, Lin et al., 2017, Paulus et al., 2017)，Transformer模型完全基于注意力机制。

2024-05-05 19:47:50 1249 1

原创深度学习中的注意力机制二（Pytorch 16）

下面描述的Bahdanau注意力模型将遵循上节中的相同符号表达。这个新的基于注意力的模型与上节节中的模型相同，只不过之前中的上下文变量c 在任何解码时间步t ′都会被ct ′替换。#@save"""带有注意力机制解码器的基本接口"""@property接下来，让我们在接下来的Seq2SeqAttentionDecoder类中实现带有Bahdanau注意力的循环神经网络解码器。编码器在所有时间步的最终层隐状态，将作为注意力的键和值；上一时间步的编码器全层隐状态，将作为初始化解码器的隐状态；

2024-05-05 18:54:10 825 1

原创深度学习中的注意力机制一（Pytorch 15）

使用小批量矩阵乘法# queries和attention_weights的形状为(查询个数，“键－值”对个数)# values的形状为(查询个数，“键－值”对个数)接下来，将训练数据集变换为键和值用于训练注意力模型。在带参数的注意力汇聚模型中，任何一个训练样本的输入都会和除自己以外的所有训练样本的“键－值”对进行计算，从而得到其对应的预测输出。# X_tile的形状:(n_train，n_train)，每一行都包含着相同的训练输入。

2024-05-05 17:24:05 1066

原创现代循环神经网络(GRU、LSTM)（Pytorch 14）

现在我们将定义隐状态的初始化函数init_gru_state。定义的nit_rnn_state函数，此函数返回一个形状为（批量大小，隐藏单元个数）的张量，张量的值全部为零。现在我们准备定义门控循环单元模型，模型的架构与基本的循环神经网络单元是相同的，只是权重更新公式更为复杂。

2024-05-04 22:33:30 1440 3

原创循环神经网络完整实现（Pytorch 13）

我们构造一个具有256个隐藏单元的单隐藏层的循环神经网络层rnn_layer。事实上，我们还没有讨论多层循环神经网络的意义。现在仅需要将多层理解为一层循环神经网络的输出被用作下一层循环神经网络的输入就足够了。通过一个隐状态和一个输入，我们就可以用更新后的隐状态计算输出。我们为一个完整的循环神经网络模型定义了一个RNNModel类。注意，rnn_layer只包含隐藏的循环层，我们还需要创建一个单独的输出层。#@save"""循环神经网络模型"""

2024-05-04 19:43:38 1185

原创循环神经网络模块介绍（Pytorch 12）

在对序列数据进行更详细的回顾之后，我们将介绍文本预处理的实用技术。然后，我们将讨论语言模型的基本概念，并将此讨论作为循环神经网络设计的灵感。

2024-05-04 18:26:58 1002

原创常见现代卷积神经网络(ResNet, DenseNet)（Pytorch 11）

小结：在跨层连接上，不同于ResNet中将输入与输出相加，稠密连接网络（DenseNet）在通道维上连结输入与输出。DenseNet的主要构建模块是稠密块和过渡层。在构建DenseNet时，我们需要通过添加过渡层来控制网络的维数，从而再次减少通道的数量。

2024-04-21 21:27:14 1133

原创常见现代卷积神经网络(VGG,NIN,googlenet)（Pytorch 10）

Inception块相当于一个有4条路径的子网络。它通过不同窗口形状的卷积层和最大汇聚层来并行抽取信息，并使用1×1卷积层减少每像素级别上的通道维数从而降低模型复杂度。GoogLeNet将多个设计精细的Inception块与其他层（卷积层、全连接层）串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。GoogLeNet和它的后继者们一度是ImageNet上最有效的模型之一：它以较低的计算复杂度提供了类似的测试精度。

2024-04-20 20:18:27 955

原创 YOLOv8 目标检测项目实操

YOLOv8是一种尖端的、最先进的(SOTA)模型，建立在以前 YOLO 版本的成功基础上，并引入了新的特性和改进，以进一步提高性能和灵活性。YOLOv8被设计为快速、准确、易于使用，这使它成为一个很好的选择，用于范围广泛的目标检测和跟踪、实例分割、图像分类和姿势估计任务。

2024-04-16 17:49:59 437 1

原创常见现代卷积神经网络-AlexNet（Pytorch 09）

本章将介绍现代的，许多现代卷积神经网络的研究都是建立在这一章的基础上的。在本章中的每一个模型都曾一度占据主导地位，其中许多模型都是ImageNet竞赛的优胜者。ImageNet竞赛自2010年以来，一直是计算机视觉中监督学习进展的指向标。传统计算机视觉模型VGG虽然深度神经网络的概念非常简单——将神经网络堆叠在一起。但由于不同的网络架构和超参数选择，这些神经网络的性能会发生很大变化。

2024-04-06 14:29:44 1208

原创卷积神经网络（Pytorch 08）

卷积网络主干的基本元素：这包括卷积层本身、填充（padding）和步幅（stride）的基本细节、用于在相邻区域汇聚信息的汇聚层（pooling）、在每一层中多通道（channel）的使用。卷积神经网络（convolutional neural networks，CNN）是机器学习利用自然图像中一些已知结构的创造性方法。

2024-03-31 15:50:37 1120

原创神经网络各个模块介绍（Pytorch 07）

在实现我们自定义块之前，我们简要总结一下每个块必须提供的基本功能。将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意，输出的形状可能与输入的形状不同。例如，我们上面模型中的第一个全连接的层接收一个20维的输入，但是返回一个维度为256的输出。计算其输出关于输入的梯度，可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。从零开始编写一个块。它包含一个多层感知机，其具有256个隐藏单元的隐藏层和一个10维输出层。

2024-03-30 21:12:15 1461

原创 kaggle竞赛（房价预测）（Pytorch 06）

此数据集由Bart de Cock于2011年收集，涵盖了2006‐2010年期间埃姆斯市的房价。下面的download函数用来下载数据集，（默认情况下为../data）中，并返回下载文件的名称。，另一个是将本书中使用的所有数据集从DATA_HUB下载到缓存目录中。

2024-03-30 19:11:30 434

原创实现多层神经网络MLP（Pytorch 05）

因为我们忽略了空间结构，所以我们使用reshape将每个二维图像转换为一个长度为num_inputs的向量。因此在这里我们直接使用高级API中的内置函数来计算softmax和交叉熵损失。

2024-03-24 23:03:16 1234 2

原创实现线性回归 softmax（Pytorch 04）

给定一个矩阵X，我们可以对所有元素求和（默认情况下）。也可以只求同一个轴上的元素，即同一列（轴0）或同一行（轴1）。如果X是一个形状为(2, 3)的张量，我们对列进行求和，则结果将是一个具有形状(3,)的向量。当调用sum运算符时，我们可以指定保持在原始张量的轴数，而不折叠求和的维度。这将产生一个具有形状(1, 3)的二维张量。# [15.]]))定义了输入如何通过网络映射到输出。注意，将数据传递到模型之前，我们使用reshape函数将每张原始图像展平为向量。

2024-03-24 21:13:50 1175

原创从零开始实现线性回归（Pytorch 03）

用于前向传播的模型，通过该模型计算预测值"""线性回归模型"""return torch.matmul(X, w) + b # 用于计算两个张量（tensor）的矩阵乘法。本次使用平方损失"""均方损失"""使用随机梯度下降作为优化算法"""小批量随机梯度下降"""

2024-03-16 21:12:34 823

原创 pytorch 基础知识二（Pytorch 02）

定义：然后求 f(x) 在时的导数，实际导数:= 2*3*1(x=1)- 4 =当，画出x=1此时的原函数和切线函数看下。偏导数，梯度：连结一个多元函数对其所有变量的偏导数，来得到该函数的梯度（gradient）向量。对于这种固定的函数可以直接计算它的导数，也就是梯度，机器学习的线性回归模型就是用的该方式直接计算，机器学习模块写过该计算过程。

2024-03-16 20:35:34 1041

原创 pytorch 基础知识一（Pytorch 01）

机器学习核心组件：1 数据集(data)，2 前向传播的model(net)，3 目标函数(loss)， 4 调整模型参数和优化函数的算法(adam)。：用于模型训练的数据。：用于前向传播计算的model, 其中涉及各种复杂的网络，Alexnet, CNN等都属于这个模块的内容，对于传统模型，常规使用公式计算结果的公式其实就是模型的一种，模型主要作用是通过记录的参数计算想要的目标值。：常用的均方误差，平方误差都是，目标函数的一直，用于评估预测值和实际结果的偏差。优化算法。

2024-03-16 17:37:04 1057

原创 pytorch 实现线性回归（深度学习）

初始化，线性回归。

2024-02-17 18:10:57 879

原创读取指定文件夹所有文件另存到同一文件（python 通用技能）

读取指定文件夹所有文件另存到同一文件。

2024-01-30 18:05:38 560

原创机器学习异常值处理逻辑汇总一

【代码】机器学习异常值处理逻辑汇总一。

2024-01-03 15:16:48 707

原创 Flask 的使用

官方文档地址：抽时间研读下。

2023-12-26 09:29:17 288

原创 sns 查看pandas 数据对比

是 Seaborn 库中用于绘制核密度估计图（Kernel Density Estimate，简称 KDE 图）的函数。核密度估计是一种非参数统计方法，用于估计概率密度函数的形状。: 输入的数据。可以是 Pandas DataFrame 或 Numpy 数组。: 选择绘制 KDE 图的变量。如果只有一个变量，可以将其传递给x。如果有两个变量，可以同时传递给x和y，这时会绘制二维的联合核密度估计图。: 控制是否在 KDE 图下方填充颜色。默认为True，即填充颜色。: 指定 KDE 图的颜色。

2023-12-16 14:44:16 301

原创代码中 % 和 // 的区别

% 返回的是除法的余数。语法：a % b，表示取 a 除以 b 的余数。例如：36 % 5 的结果是 1，因为 36 除以 5 的余数是 1。

2023-12-10 15:03:31 381

原创探秘机器学习核心逻辑：梯度下降的迭代过程 (图文详解)

图文并茂深度解析梯度下降原理 (机器学习)，探秘机器学习：图文详解梯度下降的迭代过程

2023-12-09 19:44:24 603

原创读取pdf中的表格转换为excel格式 (python)

【代码】读取pdf中的表格转换为excel格式 (python)

2023-12-01 15:23:39 337

原创 python 日志打印格式报错校正

【代码】python 日志打印格式报错校正。

2023-11-28 13:39:47 536

原创 python 输出日志到文件，删除过期文件

filename：用指定的文件名创建FiledHandler（后边会具体讲解handler的概念），这样日志会被存储在指定的文件中。interval: 滚动周期，单位有when指定，比如：when=’D’,interval=1，表示每天产生一个日志文件；%(relativeCreated)d 输出日志信息时的，自Logger创建以来的毫秒数。%(pathname)s 调用日志输出函数的模块的完整路径名，可能没有。%(filename)s 调用日志输出函数的模块的文件名。

2023-11-27 11:13:05 454

原创 c语言中 , x++ 和 ++x的区别

x++和++x1. x++。这意味着，如果你在一个表达式中使用了x++，那么该表达式会使用x的当前值，然后再将x的值增加 1。返回的值是自增前的值。2. ++x。这意味着，如果你在一个表达式中使用了++x，那么该表达式会使用x的增加后的值。返回的值是自增后的值。在实际使用中，两者的区别在于。如果只是为了增加变量的值而不需要使用增加前的值，那么两者效果是一样的。

2023-11-26 20:19:54 6509

原创 c 语言中 unsigned int 类型的负数实际值大小

的最大值是4294967295，所以。，负数会被解释为很大的正整数。

2023-11-25 22:05:10 658

原创创建 Plotly 的散点线图

【代码】创建 Plotly 的散点线图。

2023-11-23 17:18:43 299

原创 clion2020 中文版安装

链接：https://pan.baidu.com/s/1EJsmgmZcCQHoKDECkxmeaw?

2023-11-18 21:42:38 289

原创 python 机器学习常用函数

这个函数会生成一个具有指定形状的随机整数数组。你可以将生成的随机整数用于模拟数据、随机抽样等各种应用。是 NumPy 库中的一个函数，用于生成随机整数。

2023-11-04 12:54:30 567

原创 docker 存储目录迁移

该命令会将一个已有的分发版本从指定的 tar 文件导入到 WSL 中，并分配一个指定的名称（在这种情况下是 "docker-desktop-data"）。

2023-11-01 18:03:56 749

原创 seconds和total_seconds的区别

seconds只计算了 0点到6点的时差360分钟，没考虑相差的一天，而total_seconds考虑了相差的那一天的时长，所以总的为1800分钟。使用时主要考虑计算的时差是否会跨天计算，seconds计算结果是正数，按下一天的这个时间点来算的时差，而total_seconds计算结果为正常理解的时差。这个方法的主要作用是计算时间间隔对象中的总秒数。当开始时间晚于结束时间的时候计算时间差的结果也会不同，当计算同一天的时间差的时候，两个方法计算结果相同。1.4 源码计算逻辑。

2023-10-30 10:54:10 361

原创梯度算法推导 (机器学习必读02)

梯度下降法(Gradient Descent)是一个算法，但不是像多元线性回归那样是一个具体做回归任务的算法，而是一个非常通用的优化算法来帮助一些机器学习算法（都是无约束最优化问题）求解出最优解，所谓的通用就是很多机器学习算法都是用梯度下降，甚至深度学习也是用它来求解最优解。所有优化算法的目的都是期望以最快的速度把模型参数θ求解出来，梯度下降法就是一种经典常用的优化算法。

2023-10-29 20:55:15 205

原创线性模型的原理解读 (机器学习必读01)

线性回归是机器学习中有监督机器学习下的一种算法。回归问题主要关注的是因变量(需要预测的值，可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。连续值预测变量。

2023-10-29 10:53:36 683 1

原创 chatgpt 接口和 jupyter版本安装

【代码】chatgpt 接口。

2023-10-16 15:22:54 1036

原创使用opencv结合帧差法和背景减法检测场景异常情况

帧差法是一种简单的背景减法技术，用于检测当前帧和背景帧之间的差异。用于检测是否下雨，漏水等情况。

2023-10-12 17:18:54 799

加利福尼亚房屋数据, cal-housing-py3

线性模型训练问题111111