自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 快速理解视频内容并回答问题,视频理解描述模型 Flash-VStream 上线!

平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A6000的算力和 PyTorch 的镜像,点击「审核并执行」。上传好视频后,询问「Describe the video briefly」,让它来帮我们简单描述下视频内容,点击「Send」即可对视频内容进行提问。稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。如果我们想上传新的视频进行对话,需要先点击「Clear history」,然后再上传新的视频。进入到教程界面后,点击右上角「克隆」。

2024-09-06 14:14:28 174

原创 单图生成 2D 和 3D 人物,高质量图像处理模型 CharacterGen来啦!

CharacterGen的另一个核心组成部分是基于Transformer的、可泛化的稀疏视图重建模型,它有助于从多视图图像创建详细的3D模型。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090算力和 PyTorch 的镜像,点击「审核并执行」。需要注意的是,如果我们想要生成 3D 模型,需要先完成 2D 生成再进行 3D 生成。可以看到模型生成了 4 个方向的姿态,点击「Generate 3D Mesh」生成 3D 模型。当返回一个新的终端后,接着输入「bash run.sh」。

2024-08-30 17:41:58 330

原创 超越 SD3的文生图神器!FLUX.1-schnell 一键部署教程,效果太牛了

FLUX.1 [schnell] 是迄今为止最先进的 few-step 模型,其表现不仅优于同类竞争对手,还优于 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非蒸馏模型。可以看到生成的图片质量还是很高的。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A6000的算力和 PyTorch 的镜像,点击「审核并执行」。Advanced Settings 提供了一些可以调整的参数,我们可以根据自己的需要去更改输出图片的长度或者宽度以及推理的步数等。

2024-08-29 15:31:26 305

原创 PhotoMaker V2 来了,快速生成高质量写真!

近期,PhotoMaker 出了 V2 版本,PhotoMaker V2 继承了 PhotoMaker V1 的良好特性,如高质量和多样化的生成能力,以及强大的文本控制,但在角色一致性和可控性上都有了大提升。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,点击「审核并执行」。:选择希望生成的图片的特点。这里需要注意的是,需要加上 img 这三个字母,因为这是模型的 trigger word,如果模型没有识别到就无法进行输出。

2024-08-26 15:23:01 189

原创 语音转文字神器!Whisper 可实现实时转录,打工人必备!

平台会自动为容器选配合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力资源和 PyTorch 的镜像,别忘了使用文章开头的邀请链接,get 免费时长!选择好后,点击「下一步:审核」即可。系统分配资源完成后,待状态显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。登录到 OpenBayes 平台后,打开「公共教程」,找到「Whisper Web 在线语音识别工具」的教程。平台在克隆过程中会自动为容器绑定所需要的数据,不需要我们再手动配置,直接点击「下一步:选择算力」。

2024-08-21 09:52:40 263

原创 Lvmin Zhang 新作!Paints-Undo 一键帮你拆解绘画过程

平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,点击「下一步:审核」。* Operation Steps 可以选择不同的值,这里的值代表的是生成的关键帧的位置。值越大,生成的关键帧的图像与我们所给的图片越相近。登录到 OpenBayes 平台后,打开「公共教程」,找到「Paints-Undo -张图生成绘画全过程 Demc」的教程。* CFG Scale 表示图像的相关性,这里的值越小,生成图像的随机性就越大。我们选择下方的一个样例进行测试。

2024-08-15 13:49:06 136

原创 基于 GAN 的超分辨率处理方案,AuraSR 一键增强图像分辨率

论文中的一种变体:基于 GAN 的超分辨率处理方案,能够智能识别图片中的细节信息,并在放大图片的同时,自动补充缺失的细节。平台会自动选配合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,别忘了使用文章开头的邀请链接,get 免费时长!系统分配资源完成后,待状态显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。登录到 OpenBayes 平台后,打开「公共教程」,找到「AuraSR 基于 GAN 的超分辨率图像放大 Demo」的教程。

2024-08-13 18:02:06 305

原创 开源 AI 人像视频合成框架!MegActor 一键启动教程

系统分配资源完成后,待状态显示为「运行中」后,由于该项目需要额外的环境配置,在容器启动完成后项目会自动下载所需依赖,等待 5 至 6 分钟即可通过 API 地址进入该项目操作页面。平台会自动为模型选配好合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,别忘了使用文章开头的邀请链接,可以 get 免费时长!选择好后,点击「下一步:审核」即可。登录到 OpenBayes 平台后,打开「公共教程」,找到「MegActor 人像动画生成器 Demo」的教程。

2024-08-13 10:06:59 305

原创 代替 Midjourney?ComfyUI Stable DIffusion 3 运行教程

平台会自动为模型选择适配的算力资源和镜像版本,这里选择的算力是 NVIDIA RTX 4090 和 PyTorch 的镜像,别忘了使用开头的邀请码注册,Get 新用户免费的 RTX 4090,然后点击「下一步:审核」。登录到 OpenBayes 平台后,点击「公共教程」,找到「ComfyUl Stable Diffusion3 工作流在线教程」的教程。稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,点击 API 地址处的链接进入模型页面。进入到教程界面后,点击右上角「克隆」。

2024-08-05 16:51:17 454

原创 以视觉为中心的多模态大型语言模型 Cambrian-1 在线运行教程

返回工作空间,再打开一个新的终端,输入命令 bash model.sh ,当系统输出 Uvicorn running on 一个链接时表示模型已配置完成,然后我们返回到之前的模型 Demo 界面,点击刷新,可以看到可以选择模型了。稍等 15s 左右,打开一个新的终端,输入命令 bash gradio.sh,模型将会输出一个 Running on public URL 的链接,我们点击进入。模型较大,需要使用 A6000 运行,选择 A6000 算力和 PyTorch 镜像后,点击「下一步:审核」。

2024-07-26 10:38:07 446

原创 高分辨率框架 HiDiffusion 运行教程,快速生成高质量 8k 图像

这是一种无需训练即可提高预训练扩散模型的分辨率和速度的方法,通过将 HiDiffusion 应用于各种预训练的扩散模型,不仅可以将图像生成的分辨率提高至 4096×4096,而且能将图像生成速度提升 1.5 至 6 倍。上传一张参考图片后,通过输入正向提示词与逆向提示词进行图像的生成。首先上传一张需要修复的图像以及一张修复位置标记图,修复区域中的黑色区域是冻结的区域,表示我们不需要进行修改的区域,白色区域为需要修改的区域。生成图像中,第一张为原图像的轮廓,第二张为根据这个轮廓进行生成的图像。

2024-07-26 09:44:19 642

原创 强势超越 Llama3? Gemma2 中文版谷歌开源大模型 Gemma2-9B-Chinese-Chat 教程来了

进入 OpenBayes 平台后,打开「公共教程」,找到「一键部署 Gemma-2-9B-Chinese-Chat」的教程。比如我们输入「我的蓝牙耳机坏了,我该去看牙科还是耳鼻喉科」,它给我们的回答非常合理,中文理解能力非常优秀。Temperature 可以改变模型输出的随机性,Temperature 的值越大,模型的输出越随机;等待系统分配资源完成后,将鼠标悬停在「API 地址」处,点击上方链接即可进入 Demo 界面。算力选择 RTX 4090,别忘了使用链接注册哦,选择后直接点击「审核并执行」。

2024-07-19 16:18:26 285

原创 YOLOv10 目标检测算法使用教程

YOLOv10是由清华大学研究人员基于 Ultralytics Python 包开发的实时目标检测方法,旨在解决之前YOLO 版本在后处理和模型架构方面的不足,通过消除非最大抑制(NMS)和优化各种模型组件,YOLOv10 在显著降低计算开销的同时实现了最先进的性能。登录到 OpenBayes 平台后,点击「公共教程」,在公共教程中找到「YOLOv10 实时端到端物体检测」的教程。算力选择 4090,有免费的赠送时长,选择 PyTorch 镜像后,点击「下一步:审核」,「继续执行」。

2024-07-12 17:57:13 203

原创 MuseV 虚拟人视频生成框架使用教程

MuseV 是在 2024年3月由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视须和口型同步。登录到 OpenBayes 平台后,打开「公共教程」,找到「MuseV 不限时长的虚拟人视频生成 Demo」教程。等待系统分配资源完成后,已经完成实名认证的用户可以将鼠标悬停在 API 地址,出现网址之后点击进入。可以看到平台已经默认选配好了教程所需要的算力资源和镜像版本,点击「下一步:审核」。点击教程右上角的「克隆」,将教程克隆到我们自己的容器内。使用云平台:OpenBayes。

2024-07-10 20:25:05 210

原创 PhotoMaker 人像定制文生图模型使用教程

除了生成个性化人物照片以外,它还能改变人物的年龄和性别,整合不同人物的特征创造新的人物信息,是一款非常使用的 AI绘画工具。选择一个示例,示例中提供了一组图像和 Prompt,我们可以将图像移除,添加我们自己的图像。Style strength (%):风格强度,强度越高,生成对应风格的强度越大。Guidance scale:引导系数,引导系数越高,提示词对生成过程的影响越大。选择一个示例,将图像移除后添加我们自己的图像,点击 Submit 生成。Seed:随机数的种子,使用相同的种子可以生成相同的结果。

2024-06-28 20:47:14 890 1

原创 APISR 动漫图像超分辨率增强器使用教程

APISR是一个专门用于提升动漫图像及视频分辨率的开源项目,旨在恢复和增强低质量、低分辨率的动漫图像和视频源,它不仅可以处理各种图像退化问题(模糊、噪声、压缩伪影等),还提供了灵活的放大选项。页面跳转后,在 input 上传需要增强画质的图像后,点击 Submit,即可完成画质增强,生成清晰的图像。跳转到算力选择界面后,选择 RTX 4090 的算力以及 PyTorch 的镜像,点击「下一步:审核」。你是否经历过遇到喜欢的动画图片,想下载下来当头像或手机壁纸,但苦于画质并不清晰,只能放弃。

2024-06-13 16:51:29 273

原创 MuseTalk 口型同步模型使用教程

MuseTalk 是一个实时高质量音频驱动的口型同步模型,是由腾讯音乐天琴实验室开发的一款专门用于虚拟人口型生成的模型,能够依据输入的音频来修改未见过的面部图像,使面部动作与音频高度同步,以达到口型与声音匹配的效果。在项目展示页面中,在 Driven Audio 框内上传音频文件,第 Reference Video 框内输入视频文件,然后点击 Generate,稍等片刻即可生成视频。登录到 OpenBayes 平台后,点击「公共教程」,找到「MuseTalk 高质量口型同步模型」教程。

2024-06-07 19:20:25 618

原创 InstantStyle 图像生成器使用教程

InstantStyle 是一款更加强大的风格迁移模型,以往基于扩散模型的方法(比如 Lora)需要大量的数据进行训练,并且无法迁移到新的风格上。而 InstantStyle 完成了多用途图像风格注入,可以实现风格与内容的有效分离,输入任意一种图像即可提取对应的风格,无需重新训练即可进行风格迁移。跳转页面后,在 Style Image 上传一张风格参考图片,生成的图片会和这个图片保持一致的风格;右侧的图片则是生成的结果图像。还可以使用图生图的功能,将图片上传到框中,就会依据上传的图片进行生成。

2024-05-31 12:56:42 366

原创 使用 Segment Anything 模型进行图像分割教程

Segment Anything (SAM) 是一个可以根据点或框等输入提示生成高质量的图像分割的机器视觉模型,可用于为图像中的所有对象生成对应蒙版。该模型在包含 1100 万张图像和 11 亿个掩模的数据集上进行训练,在各种分割任务上具有强大的零样本性能。实现了真正意义上的分割万物。使用平台:OpenBayes贝式计算:注册 - OpenBayes该教程提供三种方式,第一种是在线推理网站,方便大家对模型进行操作和更好的可视化,操作更简单方便;

2024-05-24 21:05:14 947

原创 使用 GTZAN 数据集预处理音频数据

色谱图是一系列色度特征,每个特征表示在时间窗口内音频的音调内容在 12 个色度频带/音高之间的分布,在色谱图中,通常使用不同的颜色或灰度来表示不同音高的能量。频谱中心表示频谱的质心位置,在感知上,它与声音亮度的印象具有牢固的关联,频谱中心是通过使用傅立叶变换确定信号中存在的频率,并将它们的幅度作为权重计算的加权平均值。感兴趣的可以听一下它给出的各种流派的音乐。频谱图表示了信号在不同频率上随时间变化的强度,频谱图是音频信号分析中常用的工具,可以帮助我们可视化和理解音频信号的频率特性随时间的变化。

2024-05-13 20:28:49 1148

原创 OpenBayes 中的农作物病害图像分类教程

农作物毒害图像识别技术是一项利用图像处理和模式识别技术,对农作物是否遭受毒害以及毒害的程度进行判断的科学方法。这项技术对于现代农业生产具有重要意义,因为它可以帮助农户和农业专家快速、准确地识别和评估农作物的健康状况,从而及时采取措施防止病害的蔓延和进一步的损失。之后运行处理数据集的代码,这段代码将会从数据集中读取数据,并分为验证集、测试集和训练集。训练结束之后,可以绘制学习曲线,绘制出损失的变化、准确率的变化以及随机分数的变化。运行数据分析代码,将会分析数据集中各种类别的图像数量以及它们的关系。

2024-04-19 17:00:44 246

原创 DeiT:量化 Vision Transformers 以实现高效部署

通过代码演示量化 Vision Transformers一些优化策略,使模型更加紧凑,以便于部署。

2024-04-12 16:07:17 538

原创 在 OpenBayes 的 Python 中生成随机数字

首先导入 random 模块,然后定义一个 number_1 变量接收用户的输入,运行 number_1 = input("Enter the number of sides on your dice from 3, 6, 10, 20, and 100: ") ,可以输入 3,6,10,20,100 中的任何一个数字。如果想在 notebook 中直接使用这行代码,需要把前面的 Python 换为 run 命令,每次运行应用程序时,将得到一个从 0 到用户输入的数字范围内的伪随机结果。

2024-04-10 15:28:35 670

原创 在 OpenBayes 使用迁移学习进行花卉分类

运行这段代码,我们的模型就构建好了。之后我们可以使用我们的模型进行预测,我们可以在数据集中取出一些花朵的图像并投给模型,让模型生成对应的预测并将预测结果显示出来。之后开始模型的训练,我们需要配置一个早停参数,早停可以在训练出现性能下降时提前停止训练,这样可以避免我们的模型出现过拟合现象。在「绑定数据」一栏中的第二排选择我们的 home 工作目录,选择数据集时输入 Desnet,搜索我们的模型仓库。然后我们在验证集上评估我们的模型,运行代码,可以看见在验证集上我们的损失为 0.27,准确率为 0.95。

2024-04-03 17:18:18 802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除