2401_8487-CSDN博客

原创 Scala

无需创建脚本文件，在命令行输入 “scala” 进入交互环境，输入表达式即可求值，能即时看到结果，像输入 “1+1” 会得到 “2” ，输入 “println ("Hello World!字段是对象特有的实例变量集合，用于表示对象属性。：使用 “import” 关键字，可引入指定类或整个包的成员，“import” 语句的作用范围从其出现位置到所在语句块结束，可有效减少名称冲突。：创建以.scala 为扩展名的文件，如 “HelloWorld.scala”，编写代码后，通过右键选择 “运行” 来执行程序。

2025-03-27 10:45:06 1036

原创 [人工智能]图像识别U-net

以前做相关处理常用加法，现在用特征拼接，就靠着这样简单的结构，就能把图像分割任务完成得很好。它的整体结构就是编码和解码的过程，看着简单但很实用，应用范围特别广。因为前面有单独的监督训练，所以更容易做剪枝操作，可以按照对速度的要求快速完成剪枝，而且训练时用到相关技术，效果还不错。（深度监督），简单来说就是多输出，在多个位置计算损失然后更新，现在很多视觉任务都能用这个方法。的思路是一样的，就是把能组合的特征都利用起来，就成了升级版。个特征图，最后把这些特征组合起来，就能得到全部需要的特征。

2025-03-21 10:15:40 430

原创 [人工智能]图像分割

图像分割就是预测目标的轮廓，把不同像素分到不同类别，非常细粒度的分类。：由卷积网络（编码器）和反卷积网络（解码器）组成，共同完成图像分割任务。：人像抠图、医学组织提取、遥感图像分析、自动驾驶、材料图像分析等。：以场景理解为目标，特别选取比较复杂的日常场景。：每一个像素必须只能属于一类，预测结果为掩膜。：每个像素点分配一个语义类别和一个唯一的实例。：世界级计算机视觉挑战赛用的数据集，有。张粗略标注图像，用于语义和实例分割。：预测前景目标的类别、边框和个体。年引入语义和实例分割标注，共。：负责提取图像特征。

2025-03-20 11:40:15 670

原创【人工智能】图像识别-YOLOv4

以 CSPDarknet53 为基础，包含多个 Resblock_body 模块进行特征提取，结合 SPP、PANet 等结构，最终通过 Yolo Head 完成目标检测任务，各组件协同工作，实现高效的目标检测。：进行了大量消融实验，几乎探索了所有可能的改进方向，为算法的优化提供了充分的实验依据，帮助研究人员深入理解各个组件对模型性能的影响，为后续目标检测算法的发展提供了宝贵经验。：单 GPU 就能训练得很好，降低了硬件门槛，使更多研究人员和开发者能够开展相关研究和应用开发，促进技术的广泛传播与应用。

2025-03-14 11:36:36 365

原创 [人工智能]图像识别-YOLOV3

在不同尺寸的特征图上，先验框大小不同，13×13 特征图上有 (116x90)、(156x198)、(373x326)；26×26 特征图上有 (30x61)、(62x45)、(59x119)；52×52 特征图上有 (10x13)、(16x30)、(33x23)。特征更细致，融入多持续特征图信息预测不同规格物体；先验框更丰富，有 3 种 scale，每种 3 个规格，共 9 种；：借鉴 resnet 思想，堆叠更多层进行特征提取，目前基本所有网络架构都采用残差连接方法，YOLO-V3 也应用了该方法。

2025-03-13 10:49:09 348

原创【人工智能】YOLOV1和YOLOV2介绍

其中，7×7 表示最终网格大小，30 表示每个网格预测的信息（2 个边界框，每个边界框包含位置 (x,y,w,h)、置信度 c 共 5 个值，以及 20 个类别概率），即 (S×S)×(B×5 + C)。堆叠 3 个 3×3 的卷积层（滑动窗口步长为 1）与使用 1 个 7×7 卷积核的感受野相同，但堆叠小卷积核所需参数更少，特征提取更细致，增加了非线性变换，且不增大权重参数个数，这是 VGG 网络的基本出发点。：用于去除冗余的检测框，通过设定阈值，保留得分最高的检测框，抑制重叠度过高的其他检测框。

2025-03-12 17:57:06 755

原创【人工智能】目标检测项目

用 ratio+scale 描述，feature map 点决定位置，scale 表示大小，aspect ratio 表示形状。：微软 2014 年标注，包含 20 万张图像、80 个类别、超过 50 万个目标标注，平均每个图像的的目标数是7.2。：(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高。经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。：中心点坐标和宽高，x,y,w,h均为归一化结果。

2025-03-12 17:53:50 589

原创【人工智能】学习总结

神经网络工具箱数据处理工具箱图像分类集成算法Pychon构建模型1. PyTorch 训练模型的基本步骤2. 实现神经网络实例 —— 手写数字识别3. 模型训练4. 模型测试5. 模型结构与优化4. 数据可视化5. 模型参数显示

2025-03-12 17:50:31 1652

原创 [人工智能]实现神经网络实例

定义超参数定义数据预处理函数并加载数据

2025-03-12 17:46:01 1149

原创【人工智能】pycharm代码应用

self.conv2 = nn.Conv2d(in_channels=16, out_channels=36, kernel_size=3, stride=1) ：定义第二个二维卷积层，输入通道数为 16（即上一个卷积层的输出通道数），输出通道数为 36，卷积核大小为 3x3，步长为 1。self.conv2 = nn.Conv2d(6, 16, 5) ：定义第二个二维卷积层，输入通道数为 6（即上一个卷积层的输出通道数），输出通道数为 16，卷积核大小同样是 5x5。该层用于提取图像的初级特征。

2025-03-12 17:37:57 800

原创 [人工智能]pycharm代码学习

with torch.no_grad(): 表示在这个代码块内不计算梯度，因为测试阶段不需要反向传播更新模型参数，这样可以节省计算资源。

2025-03-12 17:28:27 987

原创【人工智能】Pytorch代码解释

class CNNNet(nn.Module)：定义一个名为CNNNet的类，继承自nn.Module，这是 PyTorch 中所有神经网络模块的基类。

2025-03-06 14:10:44 2233

原创【人工智能】图像识别技术之图像分类

可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。一般情况下，模型的精度越高，说明模型的效果越好。o 准确率（Precision）：又称为查准率，表示在模型识别为正类的样本中，真正为正类的样本所占的比例。o 召回率（Recall）：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。

2025-03-06 13:51:46 641

原创（人工智能）Pytorch数据处理工具箱

能读取不同目录下的图像数据，配合 transforms 和 DataLoader 可进行数据加载与处理，示例展示了其完整流程，包括数据预处理、加载、可视化等操作。：构建线性回归模型训练过程，在每个 epoch 计算损失值后，用 add_scalar 将损失值与 epoch 记录，可展示损失值随训练的变化。：在模型评估模式下，对卷积层输出的特征图进行处理（如转换维度、归一化等），用 add_image 记录，可查看不同层的特征图。：提供对 PIL Image 和 Tensor 对象的常用操作。

2025-02-27 11:09:40 826

原创（人工智能）Pytorch 神经网络工具箱介绍与应用

➢ dropout操作在训练和测试阶段是有区别的，使用nn.Xxx方式定义dropout，在调用model.eval()之后，自动实现状态的转换，而使用nn.functional.xxx却无此功能。二、构建模型的方法。

2025-02-25 09:49:20 1011

原创（人工智能）典型卷积神经网络架构

当经过底层和中层的特征提取与整合后，高层卷积核利用更复杂的神经网络结构和学习机制，将中层特征进一步抽象和组合，从而识别出具有明确语义的物体或物体的关键部分。这些特征是图像的最基本元素，例如通过特定的卷积核运算可以检测出图像中物体的边缘轮廓，或者识别出不同颜色区域的边界。这种从底层到高层的分层特征提取过程，使得CNN 能够像人类视觉系统一样，逐步理解图像的内容，从简单的像素信息逐步上升到复杂的语义理解，从而实现准确的图像识别和分类任务。在 CNN 中，视觉分层理论体现为不同层次的卷积核提取不同层次的特征。

2025-02-21 11:23:05 1128

原创（人工智能）卷积神经网络（CNN）

在训练过程中，不断调整网络的参数，使得网络能够学习到猫狗图像的特征差异，从而实现对猫狗图像的准确分类。这些网络架构在训练完成后，对于输入的猫狗图像，能够经过前向传播过程，最终在输出层输出分类结果，判断图像中的动物是猫还是狗。传统的多层感知机在处理猫狗分类时存在缺陷，将图像数据展平成一维向量会忽略图像的空间结构信息，且在处理如 3600 万个像素的 RGB 图片时，若使用 100 个神经元单隐含层的 MLP，会产生高达 36 亿个参数，远超地球上猫狗的实际数量，这不仅易引发过拟合，还会带来巨大的计算成本。

2025-02-21 11:20:21 741

原创（人工智能）图像识别技术中的感知机与多层感知机

o 激活函数作用是将输入信号总和转换为输出信号，需具备连续可导（少数点可例外）的非线性、简单及导函数值域合适等性质，常用的有阶跃函数（感知机所用，以 0 为界切换输出）、tanh 函数（映射到(-1,1)）、ReLU 函数（线性修正单元）等，多分类时常用 Softmax。o 包含输入层、隐藏层和输出层，单隐藏层时隐藏层大小是超参数，还可扩展到多个隐藏层用于多类分类，超参数包括隐藏层数和每层隐藏单元数目。o 模型复杂度：涉及参数个数和每个参数值选择范围，复杂度过高易过拟合，低则欠拟合，影响训练和泛化误差。

2025-02-19 17:21:40 572

原创（人工智能）图像识别技术与应用

2. 监督学习 vs. 无监督学习·监督学习：需要带标签的数据，典型任务：· 分类：手写数字识别（0-9的10类）。· 回归：房价预测（输出连续数值）。·无监督学习：从无标签数据中发现模式，例如：· 聚类：用户分群（电商用户行为分析）。· 生成对抗网络（GAN）：生成逼真人脸图像。三、深度学习的成功应用1.图像领域图像分类：ResNet模型识别千种物体。目标检测：YOLO算法实时定位物体位置。人脸合成：StyleGAN生成虚拟人脸。2.自然语言处理。

2025-02-18 15:50:14 1674

原创（人工智能）图像识别技术与应用第一课

在智能手机的人脸解锁、短视频平台的智能推荐、甚至自动驾驶汽车中，人工智能（AI）技术正悄然改变我们的生活。·数据：每个样本由特征（如图像的像素值）组成，数据量越大模型越强。- 回归任务：平方误差（预测房价与实际房价的差距）。- 分类任务：交叉熵损失（判断图片是猫还是狗）。·模型：通过调整参数生成预测结果（如神经网络）。通过数据训练模型，使机器自主提升任务性能的技术。分类：手写数字识别（0-9的10类）。生成对抗网络（GAN）：生成逼真人脸图像。回归：房价预测（输出连续数值）。

2025-02-17 18:39:16 240

2401_84873715的博客