hailiu-CSDN博客

原创昇思25天学习打卡营第30天 | MindNLP ChatGLM-6B StreamChat

较低的部署门槛： FP16 半精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理，结合模型量化技术，这一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。例如，在 int4 量化级别下最低只需 6GB 显存。不过，由于其规模较小，目前已知 ChatGLM-6B 具有一些局限性，如可能存在事实性/数学逻辑错误，或许会生成有害/有偏见内容，具有较弱的上下文能力、自我认知混乱，以及对英文指示生成与中文指示完全矛盾的内容等。

2024-07-18 21:28:20 959

原创昇思25天学习打卡营第29天 | 文本解码原理--以MindNLP为例

支持预训练模型：支持类似 Hugging Face transformers 的 API，涵盖 60 多个模型，如 bert、roberta、gpt2、t5 等，可通过简单的代码片段进行使用，例如from mindnlp.transformers import automodel;在解码阶段，模型会基于编码后的向量，根据特定的任务和目标生成输出。举个例子，如果要生成一篇新闻报道的摘要，MindNLP 会分析新闻的主要内容，根据已有的语言模式和语义理解，逐步生成能够概括关键信息的摘要语句。

2024-07-17 22:36:27 507

原创昇思25天学习打卡营第28天 | 基于MindSpore通过GPT实现情感分类

而且，GPT 的分类结果在很大程度上依赖于其训练数据的质量和覆盖范围，如果训练数据存在偏差，可能会影响分类的公正性和准确性。例如，如果训练数据中大量积极情感的样本都是关于旅游的，而对其他领域的积极情感描述较少，那么模型在处理其他领域的积极情感文本时可能表现不佳。- 随着时间的推移，新的词汇、流行语和独特的表达方式不断涌现，如果模型没有及时更新学习，可能无法准确分类包含这些新元素的文本。例如，单独的一句话“这不错”可能是积极的，但在特定上下文中，如“这不错，但还有改进的空间”，整体情感可能更偏向中性。

2024-07-17 00:14:42 711

原创昇思25天学习打卡营第27天 | 基于MindSpore的GPT2文本摘要

GPT-2 是一种基于大规模数据预训练的语言模型，它在生成摘要时并没有明确地按照抽取式或生成式的方法进行严格区分，而是通过对输入文本的整体理解和语言生成能力来生成摘要。模型在生成摘要时，会基于对文本的理解和学习到的语言模式，尝试用简洁的语言概括主要内容。1. 强大的语言理解能力：凭借在大规模文本上的预训练，GPT-2 能够对各种类型和主题的文本有较好的理解，从而为生成准确的摘要奠定基础。2. 生成自然流畅的文本：生成的摘要语言表达自然，接近人类的写作风格，更易读和理解。7小时12分才训练了80%。

2024-07-16 07:12:44 533

原创昇思25天学习打卡营第26天 | BERT对话情绪识别

例如，在“我今天很开心，因为收到了礼物”这句话中，BERT 可以理解“开心”与“收到礼物”之间的关联。结合多个 BERT 模型的预测结果，例如通过集成多个微调后的 BERT 模型，或者将 BERT 与其他模型（如循环神经网络 RNN、长短时记忆网络 LSTM 等）进行融合。- 经过在大规模语料上的预训练，BERT 可以在特定的对话情绪识别数据集上进行微调，从而快速适应新的任务。利用在大规模通用语料上预训练好的 BERT 模型，并在特定的对话情绪数据集上进行进一步的微调。

2024-07-15 08:52:47 691

原创昇思25天学习打卡营第25天 | RNN实现情感分类

例如，对于一个电影评论“这部电影太棒了，我非常喜欢”，RNN 可以逐步处理每个单词，捕捉到“太棒了”“非常喜欢”等积极词汇的信息，并综合整个序列的上下文来判断其情感为积极。另一个例子是“这个产品真糟糕，完全不满意”，RNN 能够理解“糟糕”“不满意”等消极词汇以及它们在上下文中的含义，从而将其分类为消极情感。- 将 RNN 输出的表示传递给全连接层，再通过激活函数（如 Softmax）进行分类，得到情感类别（如积极、消极）的概率分布。- 通过反向传播算法更新模型的参数，以优化模型的性能。

2024-07-14 06:55:43 316

原创昇思25天学习打卡营第24天 | LSTM+CRF序列标注

利用全局约束：CRF 考虑了整个序列的标签之间的约束关系，例如，在命名实体识别中，“B-PER”（人名开始）后面不太可能直接跟着 “O”（非实体），CRF 可以利用这些约束来优化最终的预测结果，提高标注的准确性。例如，在情感分析任务中，输入的文本序列经过 LSTM 学习到特征后，CRF 可以根据情感标签之间的逻辑关系（如积极情感之后更可能是积极情感）来优化最终的标签预测。- 无论是在自然语言处理中的不同语言，还是在生物信息学中的序列标注，LSTM + CRF 都可以通过调整训练数据来适应新的任务。

2024-07-13 07:01:47 286

原创昇思25天学习打卡营第23天 | Pix2Pix实现图像转换

例如，在图像风格迁移任务中，如果数据集中的图像大多是风景，通过对风景图像进行特定的数据增强，如特定角度的旋转和特定比例的裁剪，可能会更有效地提升模型对这类图像的学习能力。与一般判别器输出一个代表对整张图像评价的矢量不同，PatchGAN 输出的是一个 n×n 的矩阵，矩阵中的每个元素对应原图中的一个 patch，通过对每个 patch 进行真假判别，再将结果取平均作为最终的判别输出。- 判别器采用 PatchGAN 结构，用于判断输入的图像是真实的目标输出图像还是由生成器生成的图像。

2024-07-12 05:56:12 669

原创昇思25天学习打卡营第22天 | GAN图像生成

生成器的任务是生成逼真的图像，试图“欺骗”判别器；判别器则要判断输入的图像是来自真实数据还是由生成器生成的。这两个部分通过不断的对抗训练来提高各自的能力，最终使得生成器能够生成非常逼真的图像。GAN（Generative Adversarial Network，生成对抗网络是一种深度学习模型，在图像生成领域取得了显著的成果。2. 具有很强的创造性和多样性，能够生成全新的、从未见过的图像。例如，可以生成逼真的人脸图像，其细节和特征与真实人脸相似。3. 游戏和虚拟现实：生成虚拟场景和角色。

2024-07-10 17:03:58 131

原创昇思25天学习打卡营第21天 | Diffusion扩散模型

VAE 则需要学习图像编码成向量和解码回图像的过程，扩散模型把编码过程固定为加噪声，让解码器学习消除每一步添加的噪声。常见的扩散模型如稳定扩散（Stable Diffusion），它使用了 U-Net 架构，这是一种基于卷积的神经网络，可将图像下采样到较低维度，并在上采样期间重建它。其数学原理涉及到一些复杂的公式和推导，主要是通过定义前向扩散过程的概率分布以及利用神经网络学习反向扩散过程来实现图像或其他数据的生成。以图像生成为例，在训练阶段，输入是添加了噪声的图像，网络预测的是每个时间步添加的噪声；

2024-07-09 23:07:05 302

原创昇思25天学习打卡营第20天 | DCGAN生成漫画头像

它的作用是生成新的数据。在 DCGAN 中，生成器通过一系列的反卷积操作，将一个随机噪声向量逐步转换为具有一定特征和结构的图像或数据。它的任务是判断输入的数据是真实的样本还是由生成器生成的假样本。DCGAN 是一种深度学习模型，结合了卷积神经网络（CNN）和生成对抗网络（GAN）的思想。例如，生成一张逼真的人脸图像，从初始的随机噪声逐渐形成具有五官特征和合理布局的人脸。比如说，判别一张图像是来自真实的数据集还是由生成器生成的。能够学习到数据的潜在分布，从而生成更具真实感的数据。

2024-07-08 23:12:52 151

原创昇思25天学习打卡营第19天 | CycleGAN图像风格迁移互换

判别器也是一个神经网络，它接收数据样本（可能是真实的或生成的），并输出一个概率值，表示该样本为真实数据的可能性。例如，在手写数字生成的 GAN 中，生成器最初可能生成模糊、不成形的数字，但随着训练的进行，它逐渐能够生成清晰、逼真的手写数字，让判别器难以判断其真假。举个例子，一张猫的图片经过 CycleGAN 转换为狗的图片，再转换回猫的图片时，应该与原始的猫图片非常相似。基于判别器的输出，生成器会根据反馈调整自身的参数，以生成更逼真的数据，试图“欺骗”判别器。在训练过程中，生成器和判别器进行一场“博弈”。

2024-07-08 01:12:45 485

原创昇思25天学习打卡营第18天 | 基于MobileNetv2的垃圾分类

它具有更小的体积、更少的计算量和较高的精度等优势，能够在保持一定准确率的前提下，在资源受限的设备上实现快速运行，适用于多种应用场景，如目标检测、目标分类、人脸属性识别和人脸识别等。逐点卷积则是使用 1×1 的卷积核进行卷积，其作用是对深度卷积后的特征进行组合生成新的特征图，能够起到升维或者降维的作用，还可以很好地整合深度卷积分离开的通道间信息。不同版本的 MobileNet 在具体的网络结构和特性上会有所差异，但总体上都致力于在保证模型性能的同时，减少模型的参数量和计算量，以适应移动和嵌入式设备的需求。

2024-07-07 00:30:30 236

原创昇思25天学习打卡营第17天 | K近邻算法实现红酒聚类

K近邻算法（KNN）的基本思想是从训练集中寻找和输入样本最相似的k个样本，如果这k个样本中的大多数属于某一个类别，则输入的样本也属于这个类别。此时有一个未标记的数据样本，我们的任务是预测出这个数据样本所属的类别。knn的原理是，计算待标记样本和数据集中每个样本的距离，取距离最近的k个样本。待标记的样本所属类别就由这k个距离最近的样本投票产生。K-近邻 (K-Nearest Neighbor) 算法,也叫 K 最近邻算法，1968年由 Cover 和 Hart 提出，是机器学习算法中比较成熟的算法之一。

2024-07-05 20:17:44 402

原创昇思25天学习打卡营第16天 | 基于MindNLP+MusicGen生成自己的个性化音乐

与传统方法不同，MusicGen采用单个stage的Transformer LM结合高效的token交织模式，取消了多层级的多个模型结构，例如分层或上采样，这使得MusicGen能够生成单声道和立体声的高质量音乐样本，同时提供更好的生成输出控制。与传统方法不同，MusicGen 采用单个 stage 的 Transformer LM 结合高效的 token 交织模式，取消了多层级的多个模型结构，例如分层或上采样，这使得 MusicGen 能够生成单声道和立体声的高质量音乐样本，同时提供更好的生成输出控制。

2024-07-05 00:23:44 251

原创昇思25天学习打卡营第15天 | Vision Transformer图像分类

为了解决这些问题，有一些改进的方案，如 DeiT（Data-Efficient Image Transformers）、Swin Transformer、Pyramid Vision Transformer 等，使得 Transformer 架构在更多视觉任务（如目标检测、语义分割等）上取得了很好的效果，并逐渐成为视觉模型设计的新范式。其训练和推理通常需要较多的计算资源；输入预处理：将输入图像分成固定大小的 patches（例如 16x16 像素的小块），并将每个 patch 视为一个类似单词的元素。

2024-07-03 19:25:40 258

原创昇思25天学习打卡营第14天 | SSD目标检测

特征融合：融合浅层的高分辨率特征和深层的语义特征。例如，可以将较低层的特征图与较深层的特征图进行融合，这样可以结合浅层特征图的细节信息和深层特征图的语义信息，从而改善对小目标的检测。调整默认框（default boxes）的设置：减小默认框的大小和比例，使其更适合小目标的尺寸和形状，增加对小目标的覆盖范围。增加小目标的训练数据：通过数据增强技术，如旋转、缩放、翻转等，增加小目标的样本数量，以提高模型对小目标的学习能力。多尺度特征检测：利用不同层的特征图来检测不同大小的目标，提高了对不同尺度目标的检测能力。

2024-07-03 08:39:58 431

原创昇思25天学习打卡营第13天 | ShuffleNet图像分类

适用场景有限：虽然 ShuffleNet 在一些特定任务和计算资源受限的环境下表现出色，但它可能并不适用于所有类型的图像分类任务或更大型、更复杂的数据集。迁移学习：利用在大规模数据集上预训练的更复杂的模型，将其学到的知识迁移到 ShuffleNet 上，以增强其在特定任务中的表现。结合集成学习：将多个训练好的 ShuffleNet 模型进行集成，综合它们的预测结果，提高分类的准确性和稳定性。模型参数少：通过使用分组卷积和通道混洗，ShuffleNet减少了模型的参数数量，降低了模型的存储和传输成本。

2024-07-01 18:46:29 292

原创昇思25天学习打卡营第12天 | ResNet50图像分类

ResNet50相比于传统的CNN模型具有更深的网络结构，通过引入残差连接（residual connection）解决了深层网络训练过程中的梯度消失问题，有效提升了模型的性能。在图像分类中，ResNet50 能够自动学习到图像中的各种特征，无论是低级的边缘、纹理等特征，还是高级的物体形状、场景等特征。例如，在识别动物图像时，ResNet50 可以从输入的图像中提取出动物的外形、颜色、姿态等特征，从而准确判断出动物的类别。今天是12天，学习了ResNet50图像分类。

2024-07-01 08:48:40 190

原创昇思25天学习打卡营第11天 | ResNet50迁移学习

与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全联接层＋softmax输出）不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。今天又重新跑了一下FCN的例子，第一次运行无误，但是想跑第二次的时候，出现了问题，在群里向专家进行了咨询，专家说要研究研究。

2024-06-29 08:56:24 124

原创昇思25天学习打卡营第10天 | FCN图像语义分割

2024-06-29 08:53:43 224

原创昇思25天学习打卡营第9天 | 测试一下FCN

用于图像分类的网络一般结构是"卷积-池化-卷积-池化-全连接"，其中卷积和全连接层是有参数的，池化则没有参数。论文作者认为全连接层让目标的位置信息消失了，只保留了语义信息，因此将全连接操作更换为卷积操作可以同时保留位置信息及语义信息，达到给每个像素分类的目的。FCN会通过转置卷积层，将中间层的特征图的大小恢复到原始输入图像的大小，从而使预测结果与输入图像在高和宽上能够一一对应，进而实现像素级别的预测或分类。全卷积网络不包含全连接层，但往往是将末层输出层的各通道的矩阵取平均数作为各通道的最终输出。

2024-06-28 08:19:06 219

原创昇思25天学习打卡营第8天 | 静态图加速

有些变量可能后续不会再被引用了，可以释放内存，在动态图系统中由于无法感知到后续图的结构，因此就必须保留下来（除非手动释放），导致显存占用一般会大于静态图。每次都需要重新建图，在计算效率上不如静态图，静态图是一次建图，后续永远都是在这个建图结果的基础上进行计算的。动态图是完全的边建图边计算，注意到是完全，完全，完全！由于动态图需要每次重新建图，导致其无法在嵌入式设备上进行部署（1是效率问题，2是嵌入式设备通常不具有网站的建图运行时，只支持推理模式），通常需要其以某种形式转化为静态图的参数后，通过静态图部署。

2024-06-26 20:15:07 180

原创昇思25天学习打卡营第7天 | 保存与加载模型

模型的本质是一堆用某种结构存储起来的参数，所以在保存的时候有两种方式，一种方式是直接将整个模型保存下来，之后直接加载整个模型，但这样会比较耗内存；另一种是只保存模型的参数，之后用到的时候再创建一个同样结构的新模型，然后把所保存的参数导入新模型。Checkpoints记录了模型使用的所有参数（tf.Variable)的确切值。用数据对模型进行训练后得到了比较理想的模型，但在实际应用的时候不可能每次都先进行训练然后再使用，所以就得先将之前训练好的模型保存下来，然后在需要用到的时候加载一下直接使用。

2024-06-26 03:02:13 142

原创昇思25天学习打卡营第6天 | 模型训练

我们会给孩子展示很多不同动物的图片、描述它们的特征，孩子通过不断地观察和学习，逐渐能够自己区分不同的动物。例如，在图像识别模型的训练中，会输入大量的图片以及对应的标签（比如“猫”“狗”“汽车”等），模型通过分析这些数据中的像素、颜色、形状等特征，学习如何准确地识别新的、未曾见过的图片所属的类别。再比如，在自然语言处理中，训练一个语言模型来预测下一个单词，会给模型输入大量的文本，让它学习单词之间的关系和语言的结构。模型训练是指使用大量的数据来教导计算机程序（即模型）学习和识别模式、规律以及关系的过程。

2024-06-24 14:35:26 231

原创昇思25天学习打卡营第5天 | 自动微分

神经网络的训练主要使用反向传播算法，模型预测值（logits）与正确标签（label）送入损失函数（loss function）获得loss，然后进行反向传播计算，求得梯度（gradients），最终更新至模型参数（parameters）。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算，该功能对用户屏蔽了大量的求导细节和过程，大大降低了框架的使用门槛。导数在控制系统，科学计算和机器学习中扮演着核心的角色，通过微分编程“廉价”地获取导数对很多领域的数值计算有着方法论层面的提升。

2024-06-23 22:06:30 176

原创昇思25天学习打卡营第4天 | 网络构建

神经网络模型是由神经网络层和Tensor操作构成的，mindspore.nn提供了常见神经网络层的实现，在MindSpore中，Cell类是构建所有网络的基类，也是网络的基本单元。使用这样的嵌套结构，可以简单地使用面向对象编程的思维，对神经网络结构进行构建和管理。激活函数，并不是去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来，即负责将神经元的输入映射到输出端。ReLu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

2024-06-23 06:26:49 166

原创昇思25天学习打卡营第3天 | 测试Ascend910环境

网上Mindspore的资料很少，搜到了一本书《Deep Learning and Practice with MindSpore (Lei Chen)》，看了看觉得不错。今天是第3天，后台小哥哥终于处理好了算力申请，所以今天测试一下Ascend910 96G环境。今天首先重新跑了一下第一天的02快速入门例子，然后找了个ResNet50的例子跑了一下。运行的时候发现，第一次运行的载入时间非常长，比CPU环境慢多了，第二次载入会快一些。编译模型时的速度有点慢，但训练的速度确实挺快的。

2024-06-21 21:14:54 170

原创昇思25天学习打卡营第2天 | 张量-数据集-数据变换

操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。张量（Tensor）是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。张量的属性包括形状、数据类型、转置张量、单个元素大小、占用字节数量、维数、元素个数和每一维步长。提供了内置的文本、图像、音频等数据集加载接口，并提供了自定义数据集加载接口。

2024-06-20 22:48:43 395

原创昇思25天学习打卡营第1天 | 熟悉环境

昇思MindSpore是一个全场景深度学习框架，据说有易开发、高效执行、全场景统一部署的特点。高效执行包括计算效率、数据预处理效率和分布式训练效率；全场景则指框架同时支持云、边缘以及端侧场景。快速入门的内容是通过MindSpore的API来快速实现一个简单的深度学习模型。由于算力还没有分配到位，先用CPU环境试了一下，效果还可以（具体见图片）。等今晚CPU服务器超时关闭后，我再试试能不能启动Ascend环境，多跑几次训练，比较一下速度。今天开始第一天，看看能不能坚持到第25天。

2024-06-19 17:04:25 308