DaGod123-CSDN博客

原创 Pythorch，mnist手写数字识别，几个神经网络的匹配

从上面的设计图上可以看到，输入的图片是32*32*1，但是mnist的图片是28*28*1，那么如果按照上面的设计进行写代码时，一定会出现问题。可以看到，经过两次卷积和两次池化后，最后的数据为：16*4*4，但是我们上面的代码写的16*5*5,所以这里更改为16*4*4.更改后再进行测试。从下面的数据中很容易看到，模型中，有5个卷积层和3个池化层和3个全连接层，其中还加入和dropout的功能。因为mnist中的所有图片都是28*28*1的图片，1表示channel，就是灰色图片。

2024-08-14 15:42:35 776

原创 pytorch,手写数字识别,使用lenet算法实现，并对单个图片进行测试

从前面的前馈神经网络实现mnist，到现在用lenet实现mnist，可以看到应该所有的分类性算法都可以用来实现mnist。里面的图片数据如下所示，每张图是0-9的手写数字黑底白字的图片，存储时，黑色用0表示，白色用0-1的浮点数表示。每个图片都是28*28个像素点，数据集/会把一张图片的数据转成一个2828=784的一维向量存储起来。这个数据集包含70000张手写数字图片，分别是60000张训练图片和10000张测试图片，由来自250个不同人手写的数字构成，一般来自高中生，一半来自工作人员，

2024-08-14 10:51:38 799

原创 pytorch，用lenet5识别cifar10数据集（训练+测试+单张图片识别）

LeNet-5 是由 Yann LeCun 等人在 1998 年提出的一种经典卷积神经网络（CNN）模型，主要用于手写数字识别任务。它在 MNIST 数据集上表现出色，并且是深度学习历史上的一个重要里程碑。

2024-08-12 21:50:07 1051

原创 pytorch前馈神经网络--手写数字识别

具体内容就是：输入一个图像，经过神经网络后，识别为一个数字。从而实现图像的分类。

2024-07-25 15:11:45 1153 1

原创本地部署，Whisper: 开源语音识别模型

Whisper 是一个由 OpenAI 训练的强大的开源语音识别模型，它可以将语音转换为文本。Whisper 支持多种语言和语音，并且能够识别不同口音和背景噪音。它在各种语音识别任务中表现出色，包括语音转文本、语音翻译和语音命令识别。Whisper 是一个强大且易于使用的开源语音识别模型，它可以应用于各种场景。其多语言支持、高精度和鲁棒性使其成为语音识别任务的理想选择。t=N7T8。

2024-07-24 22:15:16 4056

原创本地部署，强大的音频分离工具，spleeter

Spleeter是由 Deezer 开发的一个开源音频分离工具。它使用深度学习模型，将混合音轨拆分为单独的组成部分，如人声和伴奏。自发布以来，Spleeter 因其速度和精度而迅速成为音频工程师、音乐家和研究人员的热门工具。

2024-07-17 10:16:51 2642

原创本地部署，edge-tts文本转语音解决方案

edge-tts 是微软开发的一款文本转语音工具，利用了 Edge 浏览器的强大功能和微软的云服务技术，提供多语言支持和高质量的语音合成。无论是开发者、企业，还是个人用户，都可以利用 edge-tts 提供的 API 和库，将文本转语音功能集成到他们的应用程序、网站或设备中。微软的 edge-tts 是一款功能强大、易于集成的文本转语音服务，凭借其高质量的语音合成、多语言支持和灵活的定价方案，成为各类应用场景中的理想选择。

2024-07-17 09:55:40 7684

原创本地部署，Flash Diffusion: 加速条件扩散模型实现快速图像生成

近年来，生成模型在图像生成领域取得了巨大进展，扩散模型（Diffusion Models）作为其中的代表，因其高质量的生成效果而备受关注。传统的扩散模型通常需要数百到数千步的迭代，这不仅增加了计算成本，也限制了模型在实时应用中的应用。Flash Diffusion 通过引入新的优化和架构设计，显著减少了所需的迭代步骤，实现了快速图像生成。总之，Flash Diffusion 代表了扩散模型发展的一个重要方向，通过优化模型架构和算法，实现了在少量步骤内生成高质量图像的目标，为图像生成领域带来了新的可能性。

2024-07-14 18:37:17 1292

原创本地部署，OOTDiffusion：一个高度可控的虚拟服装试穿开源工具

未来，随着技术的进一步发展，OOTDiffusion 有望在更多领域中得到广泛应用，为虚拟服装试穿和相关应用带来新的可能性。OOTDiffusion 通过扩散模型生成技术，实现了高效、逼真的虚拟试穿效果，同时提供了高度的可控性和灵活性。总之，OOTDiffusion 代表了虚拟服装试穿技术的一个重要进步，通过优化模型架构和算法，实现了高效、逼真的虚拟试穿效果，为用户和开发者提供了强大的工具和解决方案。OOTDiffusion 的核心思想是通过高效的扩散过程和去噪网络，生成逼真的虚拟服装试穿图像。

2024-07-14 17:18:24 2249 1

原创本地部署，使用ColorizeArtistic_gen.pth大模型进行图像上色

ColorizeArtistic_gen.pth 作为一种基于生成对抗网络的图像上色模型，通过先进的深度学习方法和网络架构设计，在图像上色任务中取得了显著的效果。未来，随着更多的研究和开发，ColorizeArtistic_gen.pth 有望在更复杂和多样化的场景中发挥更大的作用，为图像上色技术带来更多创新和突破。ColorizeArtistic_gen.pth 是基于生成对抗网络（GAN）的图像上色模型，通过生成器和判别器的对抗训练，生成器能够学习到如何将黑白图像转换为彩色图像。

2024-07-13 22:05:50 1321

原创本地部署，APISR: 动漫超分辨率技术

APISR作为一种专门针对动漫图像的超分辨率技术，通过结合动漫制作过程中的启发和先进的深度学习方法，在图像质量和处理速度上取得了显著的提升。未来，随着更多的研究和开发，APISR有望在更复杂和多样化的场景中发挥更大的作用，为动漫图像处理带来更多创新和突破。然而，动漫图像具有独特的风格和特征，比如明确的边缘、平滑的颜色区域和复杂的纹理，这对传统的超分辨率方法提出了挑战。APISR结合了动漫制作过程中的一些启发，设计了一种专门针对动漫图像的超分辨率模型，能够更好地保留动漫图像的风格和细节。

2024-07-13 20:24:42 1461

原创本地部署，AnimeGANv3: 将现实世界照片转化为动漫风格

AnimeGANv3是AnimeGAN系列的最新版本，它在前两代的基础上进行了改进，提供了更高的图像转换质量和更快的处理速度。未来，随着更多的研究和开发，AnimeGANv3有望在更复杂和多样化的场景中发挥更大的作用。GAN由生成器和判别器两个网络组成，生成器负责将输入图像转换为目标风格，而判别器则负责区分生成的图像和真实的目标风格图像。AnimeGANv3在此基础上进行了多项改进，包括更高效的网络架构、改进的损失函数以及更高质量的数据集，这些改进使其在图像质量和转换速度上有了显著提升。

2024-07-13 19:15:57 2300 1

原创本地部署，isNet 图像背景去除

背景去除在图像处理、视频编辑、增强现实等领域有着广泛的应用。ISNet（Image Segmentation Network）是一种先进的深度学习模型，专为高精度图像分割和背景去除设计。本文将介绍ISNet的原理、架构及其实践应用，特别是其在复杂场景中的应用。

2024-07-12 22:55:32 1186

原创本地部署，MODNet 背景去除大模型

背景去除在图像处理、图形设计、视频制作和增强现实等领域有着广泛的应用。MODNet（Matting Objective Decomposition Network）是一种专为高精度图像抠图和背景去除设计的前沿深度学习模型。本文将深入介绍MODNet的原理、架构及其实践应用，特别是其在动漫图像处理中的应用。

2024-07-12 18:45:22 1243

原创本地部署，去除动漫图像背景Anime Remove Background

动漫图像背景去除是一项在图像处理和计算机视觉领域具有重要应用的技术，广泛应用于图像编辑、视频制作、虚拟现实等领域.

2024-07-12 16:46:16 1445

原创本地部署，DeepLabV3 实现图像分割去除图像背景

图像背景去除是图像处理领域中的一项重要任务，广泛应用于图像编辑、虚拟现实、电子商务等领域。DeepLabV3 是一种先进的图像分割模型，能够在复杂背景下实现高精度的图像分割。本文介绍了 DeepLabV3 的架构、技术原理及其在去除图像背景中的应用，并通过实例展示了其在实际场景中的优秀表现。

2024-07-12 14:29:53 1315

原创本地部署，Colorizer: 让黑白图像重现色彩的奇迹

Colorizer 是一种基于深度学习的图像自动上色工具。它通过训练神经网络模型，能够自动为黑白图像添加合理的色彩，使其看起来就像是原本拍摄的彩色照片。Colorizer 不仅可以处理单张图像，还可以应用于视频帧的上色，广泛应用于历史照片修复、电影修复和艺术创作等领域。Colorizer 作为一种先进的图像自动上色技术，通过深度学习算法为黑白图像添加色彩，极大地提升了图像的视觉效果和应用价值。无论是在历史照片修复、电影修复、艺术创作还是科学研究等领域，Colorizer 都展现出了广阔的应用前景。

2024-07-11 12:51:16 1563

原创本地部署：Real-ESRGAN: 高效的图像超分辨率解决方案

Real-ESRGAN 作为一种先进的图像超分辨率技术，凭借其高效的多尺度特征提取和生成对抗训练，在处理真实世界图像时表现出色。特别是在处理真实世界图像时，Real-ESRGAN 展现出了卓越的性能，生成的高分辨率图像细节丰富、视觉效果逼真。损失函数（Loss Function）：Real-ESRGAN 采用了感知损失（Perceptual Loss）、对抗损失（Adversarial Loss）和像素损失（Pixel Loss）的组合，使得训练过程更加稳定，生成的图像质量更高。

2024-07-11 11:47:53 4100

原创本地部署，GFPGAN: 实用的面部修复算法

GFPGAN 是一种基于生成对抗网络（GAN）的面部修复算法，专为处理低质量、模糊或损坏的面部图像而设计。该算法通过结合生成对抗网络和面部先验知识，能够在保留面部特征和细节的同时，有效地修复图像中的缺陷，使得最终生成的图像更加清晰和自然。GFPGAN 作为一款实用且高效的面部修复算法，凭借其先进的技术和卓越的性能，已经在多个领域展现出了巨大的潜力。从摄影和视频制作到安防和医疗，GFPGAN 的应用场景广泛且多样。

2024-07-10 23:15:03 2264

原创本地部署，强大的面部修复与增强网络CodeFormer

CodeFormer 是一个基于深度学习的面部修复与增强网络，专为处理低质量、损坏或模糊的面部图像而设计。通过先进的生成对抗网络（GAN）和自监督学习技术，CodeFormer 能够高效地修复面部图像中的缺陷，并增强其细节，使得最终生成的图像更加清晰和自然。如图可以看到修复过后的图片，脸部细节明显得到非常好的提升CodeFormer 作为一款强大的面部修复与增强网络，凭借其先进的技术和卓越的性能，已经在多个领域展现出了巨大的潜力。从摄影和视频制作到安防和医疗，CodeFormer 的应用场景广泛且多样。

2024-07-10 22:15:34 3023

原创 docker常用的命令（随时更新）

使用的原因是，一般容器里面会自动拉取一些大模型，如果删除容器后，里面的大模型数据就不见了。把docker文件做成tar，可以上传到任何有docker的服务器上。docker save -o xxxx.tar 镜像名称。docker commit 容器id 新的镜像名称。在把tar文件上传到服务器，load进去。这里记录一下自己常用的docker命令。把正在运行的容器生成为镜像，

2024-07-10 21:51:50 228

原创本地部署，图片细节处理大模型Tile Controlnet

Tile ControlNet 是一种基于控制网络（ControlNet）的图像生成技术。它通过将图像分割成多个小块（Tiles），并分别控制这些小块的特征来实现对整个图像的精细控制。与传统的生成模型不同，Tile ControlNet 能够在保持全局一致性的同时，精确地控制图像的局部细节。

2024-07-10 21:39:00 1638

原创本地部署，AuraSR全新图像超分辨率模型

一款名为AuraSR的全新图像超分辨率模型引起了人工智能界的广泛关注。该模型由Fal AI公司开发，基于Adobe最新发布的GigaGAN论文，采用生成对抗网络（GAN）技术，能够在极短时间内将图像分辨率大幅提升。参数量达6亿，处理能力强大。采用GAN技术，相比传统扩散模型，处理速度更快。能够实现4倍超分辨率处理，将512像素图像提升至1024像素。处理速度惊人，仅需1/4秒即可完成上述分辨率提升。

2024-07-09 15:05:46 1197

原创 Docker安装BRIA-RMBG-1.4模型，背景去除

BRIA 背景去除 v1.4 模型RMBG v1.4 是我们最先进的背景去除模型，旨在有效地将各种类别和图像类型的前景与背景分开。该模型已在精心选择的数据集上进行训练，其中包括：一般库存图片、电子商务、游戏和广告内容，使其适用于大规模企业内容创建的商业用例。其准确性、效率和多功能性目前可与领先的源可用模型相媲美。它是内容安全、合法许可的数据集和偏见缓解至关重要的理想选择。RMBG v1.4 由 BRIA AI 开发，可作为非商业用途的源可用模型。模型描述BRIA AI背景去除。

2024-07-09 14:19:54 1300 1

原创 windows下docker安装

本文安装docker，将使用WSL2，而不是vmeare和Hyper-V，也不需要你另外安装Linux系统（如Ubuntu）。查阅资料均来自官网文档（微软官网和docker官网）。

2024-07-08 09:52:04 644

原创 qml StackView replace方法

在 QML 中，StackView提供了一种轻量级的方式来管理页面的导航。除了push和pop方法，StackView还提供了replace方法来替换当前页面。这个方法可以在不改变堆栈深度的情况下，用新页面替换当前页面。

2024-07-05 22:33:41 546

原创 qml StackView initialItem

在 QML 中，StackView是一个用于管理多个页面的容器，可以通过堆栈的方式显示和切换页面。你可以使用属性来设置StackView的初始页面。可以是一个组件、一个 URL，或者一个动态创建的对象。下面是一个示例，展示如何使用StackView和。

2024-07-05 09:58:36 501

原创 qml required property

在 QML 中，你可以使用required关键字来声明一个属性是必需的。这意味着在创建该对象时，必须为该属性赋值，否则会导致运行时错误。使用required属性可以确保某些关键属性在对象初始化时就被正确设置。以下是一个示例，展示如何使用requiredItem {// 定义一个必需的字符串属性// 使用该必需属性Text {text: namewidth: 640// 正确使用必需属性// 如果未设置必需属性，会导致运行时错误// }

2024-07-05 09:26:43 814

原创 set_source_files_properties QT_QML_SINGLETON_TYPE

在使用 Qt 和 CMake 构建项目时，有时你可能需要将某些 QML 文件设置为单例类型。Qt 为此提供了一个名为的属性，可以通过 CMake 的命令来设置。

2024-07-02 09:03:47 833

原创 Cmake qt_add_library

在Qt中，是一个用于在CMake构建系统中添加库的命令。这个命令通常用于创建一个新的Qt库，并将其添加到CMake项目中。以下是如何使用。

2024-07-02 08:51:27 1250

原创 FFmpeg编解码的那些事（4）-视频软解码代码

现在很多网上的代码，由于不是最新的ffmpeg库，导致很多不能运行。这里发一下自己运行过的最新的ffmpeg软解码代码。上面的代码用c语言写的，下次整一个c++的代码，可以更方便的来使用。ffmpeg库代码：ffmpeg6.1.1。

2024-06-27 12:10:35 240

原创 FFmpeg编解码的那些事（3）-视频硬解码的基础知识

了解视频硬解码的基础知识

2024-06-16 21:48:30 840

原创 FFmpeg编解码的那些事（2）-视频软解码

根据pts来计算一桢在整个视频中的时间位置。

2024-05-29 14:51:30 517

原创 FFmpeg编解码的那些事（1）-常见概念

看了网上很多ffmpeg的编解码的文章和代码，发现有很多文章和代码都过时了，主要还是ffmpeg有很多接口都已经发生变化了。这里简单说一下，什么是编码和解码。

2024-05-29 00:09:38 681

原创 opencv中的img格式

关于颜色空间的知识在视频处理时是很需要知道的，接触vlc后，发现代码里有个RV32，于是去google一下也没有知道什么，最后在代码里知道原来这是由RGB24转为RGB32的，这又跟RGBA不同，没有A分量，即不透明度。RV32和RGBA都是32位的。此外还有RV12，RV16这样的表示，是什么，答案就在vlc的代码vlc_fourcc.h里。1，chroma意思是色度。其实是一个颜色储存不同格式的一个识别id.比如“RGBA”,"RV15","RV16","RV32","YUYV","I420"

2024-02-06 14:40:50 609 1

原创 Qt 文字描边（基础篇）

项目中有时需要文字描边的功能。

2023-12-14 19:59:36 1880 1

原创 qt 获取每行行数和字符串

此代码帮我了大忙，如果对document不熟悉的话，就很难想到。一般控件中都会包含document这个类。

2023-12-12 23:00:42 435

原创 qt可以详细写的项目或技术

3.QT列表显示大量信息。1.QT 图形视图框架。2.QT 模型视图结构。

2023-12-10 22:59:13 418 1

原创 QT多线程

Qt是一个跨平台的 C++图形用户界面应用程序框架，它提供了对多线程的支持。以下是使用Qt进行多线程编程的一些常见方法：使用QThreadQThread是Qt中用于创建和管理线程的类。你可以创建一个QThread对象，并将其启动，然后在该线程中执行你的任务。使用提供了一种简洁的方式来在多个线程中执行任务。它提供了一些函数，如，可以在后台线程中执行指定的函数。使用信号和槽：信号和槽是Qt中用于对象通信的机制。你可以在一个线程中发射信号，然后在另一个线程中接收该信号并执行相应的操作。Qt。

2023-12-10 22:35:19 555 1

原创 qt 模型视图结构

是一个包含数据和显示信息的类，可以用于表示表格、列表和树状结构中的数据项。：用于表示列表的模型。：用于实现树状视图的委托行为，如编辑和显示树状结构中的数据项。：用于实现日期时间的委托行为，如编辑和显示日期时间中的数据项。：用于实现表格视图的委托行为，如编辑和显示表格中的数据项。：用于实现列表视图的委托行为，如编辑和显示列表中的数据项。：用于实现下拉框的委托行为，如编辑和显示下拉框中的数据项。：用于实现复选框的委托行为，如编辑和显示复选框中的数据项。：用于实现文本框的委托行为，如编辑和显示文本框中的数据项。

2023-12-10 22:15:16 460 1

pytorch实现手动数字识别

Lora gateway to network server interface

QT数据转OPENCV

优先权改进和块划分的图像修复

LoraWan 协议

lora sx1257芯片 datasheet

LoraWAN协议格式

空空如也