- 博客(645)
- 资源 (3)
- 收藏
- 关注
原创 使用虚拟声卡播放音频文件作为麦克风声源
VB-CABLE虚拟声卡是一种将电脑播放的声音当作虚拟麦克风输入的工具,可用于语音聊天、直播或录制系统声音等场景。
2025-03-07 19:06:27
522
原创 python启动关闭进程
subprocess 是 Python 的一个标准库,用于创建和管理子进程。它允许 Python 程序启动新的进程、连接到它们的输入/输出/错误管道,并获取它们的返回码。
2025-02-25 16:51:29
831
原创 基于Electron+Vue3创建桌面应用
Electron 是一个开源框架,基于 Chromium 和 Node.js,用于开发跨平台桌面应用程序。它允许开发者使用 HTML、CSS 和 JavaScript 等 Web 技术构建原生桌面应用,支持 Windows、macOS 和 Linux。Electron 以其开发便捷性、强大的功能和丰富的生态系统而广泛应用于工具类应用、媒体播放器、代码编辑器等领域。
2025-02-17 18:31:52
835
原创 OpenCV 模板匹配
cv2.matchTemplate 是 OpenCV 中用于模板匹配的函数,它可以在一幅大图像中查找与模板图像相似的区域。以下是关于该函数的详细说明和使用方法:
2025-02-12 18:54:46
1020
原创 DeepSeek本地部署
Ollama 是一个用于运行大型语言模型(如 Llama 3.3、DeepSeek-R1、Phi-4、Gemma 2 等)的框架,支持本地部署和使用。
2025-02-10 16:39:39
897
原创 使用PyInstaller将Python项目代码打包成exe
PyInstaller 是一个非常强大的工具,用于将 Python 脚本打包成独立的可执行文件(如 .exe 文件),使得 Python 应用程序可以在没有安装 Python 环境的机器上运行。
2025-01-21 20:21:01
1041
原创 微软开源AI Agent AutoGen 详解
AutoGen是微软发布的一个用于构建AI Agent系统的开源框架,旨在简化事件驱动、分布式、可扩展和弹性Agent应用程序的创建过程。
2025-01-16 14:25:12
1248
原创 AI Agent 智能体详解
是一个开源框架,用于构建AI Agent,简化了事件驱动、分布式、可扩展和弹性的Agent应用程序的创建。是一个由Toran Richards创建的流行开源项目,利用GPT4作为大脑,结合langchain的链接思想,连接各种工具和互联网资源来完成人类给予的任务。是一个基于Langchain和OpenAI基础构建的AI Agent平台,使用户能够在浏览器或个人计算机中创建、配置和部署自主AI代理。
2025-01-15 16:07:35
600
原创 Stable Video Diffusion(SVD)搭建部署
Stable Video Diffusion(SVD)是Stability AI于2023年11月21日发布的视频生成式大模型,是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率,用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。
2025-01-14 14:39:09
950
3
原创 使用 Optimum Habana 在 Intel Gaudi 上加速模型训练与推理
Optimum Habana 是 Hugging Face 开发的一个开源库,旨在帮助开发者在 Intel® Gaudi® AI 加速器(HPU,Habana Processing Unit) 上高效地训练和推理大规模的机器学习模型,特别是 Transformer 和 Diffuser 模型。它作为 Hugging Face Optimum 系列工具的一部分,专注于优化模型在 Gaudi 硬件上的性能,使开发者能够更轻松地利用 Gaudi 加速器的计算能力。
2025-01-06 13:05:35
937
原创 uni-app设置页面不存在时跳转到指定页面
uni-app提供了onPageNotFound事件,可以在App.vue中监听这个事件,并在事件触发时执行跳转。
2024-12-18 14:09:07
493
原创 如何设置浏览器不缓存网页
这里expires -1;表示过期时间为过去,即告诉浏览器页面已经过期,不应该被缓存。Cache-Control响应头的no-cache、no-store和must-revalidate指令进一步强化了不缓存的要求。
2024-12-18 13:57:37
809
原创 解决matplotlib错误:“findfont: Generic family ‘sans-serif‘ not found because none of the...”
findfont: Generic family 'sans-serif' not found because none of the following families were found: SimHeiUserWarning: Glyph 19981 (\N{CJK UNIFIED IDEOGRAPH-4E0D}) missing from font(s) DejaVu Sans.
2024-12-05 14:58:44
661
1
原创 uni-app打包H5自定义微信分享
配置好OG标签信息后,从浏览器分享到微信时,在卡片上能正常显示标题、描述、缩略图。但是在使用微信内置分享(右上角->分享到朋友等)时,描述和缩略图没有正常显示。
2024-11-22 15:06:21
1737
1
原创 使用diffusers和ControlNet进行文生图
Diffusers库是由Hugging Face团队推出的一款专门用于处理扩散模型(Diffusion Models)的工具箱,支持各种扩散模型的加载、训练和微调,能够生成高质量的图像、音频,此外,它还提供了多种噪声调度器,用于调节模型推理中的速度和质量。
2024-11-18 19:11:14
903
原创 解决VUE报错:“Error: ENOSPC: System limit for number of file watchers reached, watch ”
这个错误信息表明Node.js应用遇到了一个系统资源限制问题,具体来说是文件监视器(file watchers)的数量达到了系统限制。在Linux系统中,每个用户都有一个inotify实例限制,这是由内核参数fs.inotify.max_user_watches控制的。当这个限制被达到时,尝试创建新的文件监视器就会失败,并抛出ENOSPC错误。
2024-11-07 16:10:12
510
原创 使用html-docx-js-typescript将Html转换为Word文件
html-docx-js-typescript 是一个 JavaScript 库,它允许将 HTML 文档转换为 DOCX 格式的 Word 文档。通过 npm 来集成 html-docx-js-typescript,此外,由于该库在生成文件时通常会用到 Blob 对象,并且为了方便用户下载生成的 DOCX 文件,还会用到 file-saver 这个库。安装完成后,就可以在代码中使用这两个库来将 HTML 转换为 DOCX 文件了。
2024-10-31 11:17:26
693
原创 分类任务中评估模型性能的核心指标
在机器学习尤其是分类任务中,Accuracy(准确率)、Precision(精确率)、Recall(召回率)和F1 Score(F1分数)是评估模型性能的四个核心指标。
2024-10-18 18:49:19
890
原创 Clip模型详解
CLIP(Contrastive Language-Image Pre-training)是由OpenAI在2021年推出的一种基于对比学习的多模态预训练模型,它通过大规模的图像和文本数据进行训练,使得模型能够理解图像内容和相关文本之间的语义关系。这种模型能够同时理解文本和图像,可以看作是一个连接语言和视觉两种信息形式的桥梁。CLIP的核心贡献在于它打破了传统的固定类别标签范式,通过对比学习的方式,将图像和文本映射到同一个向量空间中,从而实现跨模态的检索和分类。
2024-10-16 20:20:29
2365
原创 Transformer的预训练模型
Transformer的预训练模型有很多,其中一些在自然语言处理(NLP)和计算机视觉等领域取得了巨大成功。
2024-10-16 19:39:31
1184
原创 Midjourney参数详解
Midjourney的参数是添加到提示词中的选项,用于更改图像的生成方式。这些参数可以调整图像的宽高比、风格、质量、随机性等多个方面。
2024-09-24 15:09:03
1201
原创 使用OpenCV检测图像是否是模糊的
在Python中检测照片是否模糊通常涉及图像处理技术,其中一个常用的库是OpenCV(Open Source Computer Vision Library)。检测图像模糊的一种常用方法是基于图像的锐度或边缘信息的多少。一个模糊的图像通常包含较少的边缘或高频信息。
2024-09-23 10:34:58
1114
原创 Transformer 架构详解
Transformer 架构是由 Ashish Vaswani 和他的同事们在 2017 年的论文《Attention is All You Need》中首次提出的。它在自然语言处理(NLP)和其他序列建模任务中取得了前所未有的成功。Transformer 模型完全基于自注意力机制,摒弃了循环和卷积操作,这使得它在处理长序列数据时具有显著优势,并且能够实现并行化计算。
2024-09-19 19:02:49
1134
原创 CNN卷积神经网络详解
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,专门用于处理具有网格结构的数据,如图像、视频等。它在计算机视觉、自然语言处理、语音识别等领域有着广泛的应用。
2024-09-18 15:03:23
2050
原创 卷积核详解
卷积核(Convolution Kernel),简单来说,就是在进行图像处理或信号处理时,用来“扫描”或“滑动”过原始数据(比如一张图片)的一个小型矩阵。这个矩阵里面包含了一些数值,这些数值在滑动过程中与原始数据对应位置的数值进行特定的数学运算(通常是乘法后求和),从而生成新的数据或特征。
2024-09-18 12:10:57
890
原创 timm图像模型库
timm(PyTorch Image Models)是一个集合了多种SOTA(State of the Art)计算机视觉模型、层、实用工具、优化器、调度器、数据加载器、增强策略以及训练/验证脚本的库,旨在简化模型的选择、创建和微调过程。它支持超过700种预训练模型,并且可以轻松地进行加载和使用。
2024-09-14 11:15:30
1379
原创 RepLKNet架构详解
RepLKNet 通过引入大卷积核和重参数化技术,有效地结合了 Vision Transformer 的全局建模能力和 CNN 的高效计算优势。其设计创新在于既保持了卷积网络的结构简单性和计算效率,又通过大卷积核弥补了 CNN 在处理长距离依赖信息时的不足。因此,RepLKNet 是一种强大的模型架构,适用于各类计算机视觉任务,在大规模数据集上的表现尤其出色。
2024-09-12 15:48:58
993
原创 ConvNeXt架构详解
ConvNeXt 是一种现代化的卷积神经网络架构,结合了 ResNet 的经典设计和 Vision Transformer 的创新元素。通过一系列巧妙的调整和优化,ConvNeXt 证明了卷积网络在处理视觉任务时依然可以与 Transformer 相媲美,甚至在某些场景下有更好的计算效率和性能表现。
2024-09-12 15:38:23
1827
原创 DeepFake换脸检测
DeepFake(深度伪造)技术能够以惊人的准确度修改视频或图像中的人脸,造成虚假信息的快速传播。为了应对这一挑战,许多研究者开始探索防御DeepFake的技术手段。DeepFakeDefenders项目是由VisionRush团队开发的,旨在通过先进的技术手段识别和对抗DeepFake。该项目提供了一套完整的工具集,包括预训练模型、训练脚本以及部署方案,帮助用户快速构建自己的DeepFake检测系统。
2024-09-12 10:52:49
1295
1
原创 MySQL解决错误this is incompatible with sql_mode=only_full_group_by…
在SQL查询语句中加入group by时报了以下错误
2024-09-10 18:05:02
748
原创 解决docker启动失败的错误“Status: unknown flag: --graph”
最近服务器重启以后docker启动失败了,使用以下命令查看 Docker 的日志文件以获取更详细的错误信息。
2024-09-05 20:57:59
718
原创 ComfyUI使用Flux模型
ComfyUI是一个强大的用户界面,支持多种图像处理和生成模型,而Flux是一系列由Black Forest Labs开发的扩散模型。
2024-08-31 18:16:13
2401
原创 Python使用OpenCV识别图片人脸
在Python中,识别图片中的人脸并获取人脸区域的坐标,通常可以使用OpenCV库结合Haar特征分类器来实现。
2024-08-30 12:05:36
932
原创 PyQt5库详解
PyQt5是一个Python编程语言的GUI工具包,允许开发人员使用Python语言创建桌面应用程序。它基于Qt库,Qt是一个流行的C++框架,用于开发跨平台的应用程序。
2024-08-17 15:01:36
1545
原创 PyWin32库详解
PyWin32是一个Python库,它提供了丰富的接口以便访问Windows操作系统下的各种原生API。这个库为Python开发者在Windows平台上进行开发提供了极大的便利,使得在Python程序中使用Windows功能变得容易。
2024-08-13 20:29:57
953
原创 Deep-Live-Cam实时AI换脸
Deep-Live-Cam 是一个基于AI技术的实时人脸替换和动画工具,该项目结合了深度学习算法,能够实时地将一个选定的人脸替换到目标视频或图片中,支持多种平台和执行环境。
2024-08-13 19:52:30
2584
4
原创 AIGC生成图像检测
丰富纹理区域中的像素表现出比贫乏纹理区域中的像素更显著的波动。他们采用ResNet-50作为分类器,并观察到包括JPEG压缩和高斯模糊在内的数据增强可以提高检测器的泛化能力,这意味着检测器可以很好地泛化到未见过的架构、数据集和训练方法。LNP观察到真实图像的噪声模式在频率域中表现出相似的特征,而生成图像的噪声模式则截然不同。LGrad提取了一个训练良好的图像分类器获得的梯度图,作为GAN生成图像的指纹。基于这一观察,他们旨在通过将全局纹理提取融入常见的ResNet结构中,来提高检测器的泛化能力和鲁棒性。
2024-08-08 10:46:18
1599
原创 SpringBoot使用开发环境的application.properties
在Spring Boot项目中,application.properties 或 application.yml 文件是用于配置应用程序外部属性的重要文件。这些文件允许定制你的应用,而无需更改代码。根据不同的运行环境,可以通过创建以application-{profile}.properties格式命名的文件来定义不同环境的配置,其中{profile}是环境标识,如test(测试)、dev(开发)、prod(生产)等。
2024-07-16 19:56:19
617
基于RoBERTa模型实现AI生成文本检测
2024-12-08
基于ViT模型实现相似图像检索
2024-11-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人