自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 OpenBayes 一周速览丨Ministral-8B革新侧端AI新体验!PsyDTCorpus心理咨询数据集上线,含5k个数字孪生对话数据

Food–101 数据集是包含 101 种食品类别的图像数据集,主要用于图像分类,共有 101k 张图像,每个类别的测试图像和训练图像分别有 250 张和 750 张,其中训练图像未经数据清洗,但所有图像均已重新进行尺寸缩放,最大边长在 512 像素。Labelme 是用于目标识别的图像数据集,涵盖 1k+ 个完全注释和 2k 个部分注释的图像,其中部分注释图像可以被用于训练标记算法,测试集拥有来自于世界不同地方拍摄的图像,这可以保证图片在续联和测试之间会有较大的差异。* SVHN 真实世界图像数据集。

2024-11-07 19:59:21 414

原创 包日、包周、包月功能上线,超优惠!

算力包日、包周、包月功能上线

2024-11-07 19:26:35 251

原创 OpenBayes 一周速览丨AI 配音+翻译+字幕一步到位!视频创作神器 Linly-Dubbing 在线使用;OMat24 无机材料数据集上线

它包含了 10,055 个训练实例和 1,047 个测试实例,涵盖了 55 种不同的计算任务。Cityscapes 数据集是一个专门针对城市街道场景的语义理解图片数据集,它包含了来自 50 个不同城市的街道场景,总共包含约 25k 张图像,其中有 5k 张是高质量像素级精细标注的图像,另外还有 20k 张是带有粗糙标注的图像。OMat24 是 Meta 开源的一个大规模无机材料数据集,包含约 1.1 亿个数据点,这些数据点是通过高精度的密度泛函理论 (DFT) 计算得到的,涵盖了多样性的结构和成分。

2024-10-29 18:29:54 487

原创 OpenBayes 教程上新 | 重回霸主地位,Stable Diffusion 3.5 轻松生成多元化风格图像

其中,Stable Diffusion 3.5 Large 是该系列中最强大的模型,拥有 80 亿参数,能够生成高达 100 万像素分辨率的图像,并且可以生成风格更为多样化的图像。今年 6 月,Stability AI 隆重发布了 Stable Diffusion 3 系列的首个开源版本 Stable Diffusion 3 Medium,虽然该版本在图像生成方面确实取得了一定的进步,但它在生成人像以及细节方面仍存在不足。2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

2024-10-29 17:37:09 554

原创 OpenBayes 一周速览|即刻体验Depth Pro,0.3秒get深度图;超高清视频生成模型上线,帧率高达24fps

该教程现已上线 OpenBayes 公共教程界面,只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。包含来自 101 个物体类别的约 9k 张图像,不同类别有 40 至 800 张图片,每张图片的大小在 300x200 像素,且数据集的发布者均已标注对应的目标以供使用。SynthText 数据集由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。

2024-10-24 12:59:24 734

原创 1024程序员节福利放送 | AI 照片修复魔法,一键重拾旧时记忆

为了让这些珍贵的老照片重焕光彩,B 站 Up 主是花子呀精心制作了「唤醒老照片」教程。不仅能够实现老照片的修复、还能够为黑白照片进行上色,甚至可以将静态的照片生成动态视频,让那些静止的瞬间活灵活现。目前该教程已经上线至 OpenBayes 公共教程中,点击克隆后只需简单 3 步即可重拾珍贵回忆

2024-10-24 12:26:52 735

原创 OpenBayes 一周速览丨YOLOv11 来了!多任务目标检测一个模型全搞定;一键部署 OpenAI 最新语音识别模型,下载超 13 万次!

问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。该模型为 Llama 3.2-Vision 的 11B 参数大小的指令微调模型,针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化,支持英语、德语、法语等 8 种语言。该数据集包含了约 255 亿个 tokens 的医疗预料数据,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语,并且对更多语言的支持仍在不断更新和扩展中。MMMLU 多语言多任务语言理解数据集。

2024-10-15 18:40:50 884

原创 OpenBayes 教程上新 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,该教程已上线至 OpenBayes ,一键克隆即可启动

2024-10-15 17:57:30 683

原创 OpenBayes 教程上新丨打光神器 IC-Light 上线,光影效果高度一致,快速拯救废片

斯坦福博士张吕敏 (Lvmin Zhang) 开源了一款能够重塑光线的神器 IC-Light,用户可以通过简单的文本描述或背景条件来控制图像的光照效果,使得图像在视觉上与新的背景或环境融合得更加自然。目前「IC-Light 图片打光神器、背景自然融合替换」已上线至 OpenBayes 公共教程模块,一键克隆即可启动,分分钟帮你拯救假期废片。

2024-10-15 17:20:39 472

原创 OpenBayes 一周速览|IC-Light 图片打光神器一键启动!Tecnalia 电子设备废物高光谱数据集上线,提高电子废物回收准确性

这个模型特别适合创造具有经典卡通美学的异想天开和风格化的插图,其生成的图像具有手绘的质感、流畅的笔触,以及柔和的色彩。Tecnalia 高光谱数据集包含来自电机和电子设备废物 (WEEE) 的不同有色金属部分,如铜、黄铜、铝、不锈钢和白铜,图像在光谱范围 [415.05 纳米,1008.10 纳米] 内包含 76 个均匀分布的波长。该数据集记录了 10 名测试者在被试收听和想象音乐片段时记录的脑电图数据,其中包括 12 个音乐片段,每个音乐片段大约 7-16 秒且包括不同的音乐流派。

2024-09-23 20:00:58 663

原创 OpenBayes 教程上新|让虚拟偶像活起来!LivePortrait 实现超逼真表情迁移

LivePortrait 在最新版本中通过精确的画像编辑和视频编辑等功能,极大地简化了这一过程。创作者可以精确控制图像中的细微动作,生成高质量、细节丰富的动态视频,为创意和内容制作提供了极大的灵活性和便利。OpenBayes 的公共教程模块现已上线了「LivePortrait 最新版一键运行 Demo」,该教程已经为大家搭建好了环境,无需输入任何命令,一键克隆即可立即启动!

2024-09-23 19:49:13 495

原创 OpenBayes 教程上新 | AI 时代的「神笔马良」,Hyper-SD 一键启动教程上线!

5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 1 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。1. 打开 Demo 后,在绘图区简单画出形状后,输入 Prompt(例如 Lighthouse on the sea),点击「run」,即可产出图像。4. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

2024-09-18 17:52:32 439

原创 OpenBayes 一周速览|Deepfake视频识别数据集上线,含28位演员的363个视频;LLaVA OneVision多模态教程上新

清华大学联合智谱 AI 构建了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。该数据集包含两个子集:DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet。LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

2024-09-12 17:36:47 715

原创 最高可赠 100h RTX 4090,开学季特惠已不足 3 天,速来!

2024-09-12 17:19:45 413

原创 OpenBayes 教程上新 | FLUX ComfyUI 现已上线 ,让 SD 和 Midjourney 颤抖的文生图黑马!

7. 在左侧 「ai-toolkit」-「output」-「taylor swift」-「sample」文件里,可以看到我们刚刚 Test Prompt 的效果,如果效果还不错,就证明我们的模型已经训练成功了。10. 页面跳转后,在「LoRA 加载器」中选择刚刚训练好的模型,在「CLIP」中输入 Prompt(例如:a person is drinking coffee),点击「添加提示词队列」即可生成图像。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

2024-09-12 16:46:08 864

原创 轻量级 AI 革命:Phi-3.5 小模型现可一键 input!浙大领头开源多模态基准上线,含 8 大类别图像问答

使用传统的数字人训练方案生成一个高质量的数字人,常常需要大量的时间和算力资源,同时对训练素材的要求也较高。MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破,使用 MuseV 生成数字人视频后,再使用 MuseTalk 实现唇形和音频的同步,短短几分钟内即可实现完整的数字人制作。此数据集包含由 Llama-3.1-70B-Insturct 生成的 2.2k 个多轮会话,所有的对话都以 1 句问候语开始,选择的主题涵盖日常主题和基础科学,包括:20 个日常话题,每个话题有 100 个子话题;

2024-09-02 16:31:03 772

原创 OpenBayes 教程上新 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 上线!

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2000 词的连贯输出时,往往会遇到困难。3. 点击右下角「下一步:选择算力」。一键克隆即可开启对话。

2024-09-02 16:13:33 391

原创 OpenBayes 教程上新 | 青岛小哥焦恩俊版二郎神来袭,MuseV + MuseTalk 分分钟实现高质量数字人制作!

6. 打开 Demo 后,上传一张图片并输入 Prompt,Prompt 的格式为质量词+人物主体+动作词,例如 (masterpiece, best quality, highres:1),(1boy, solo:1),(eye blinks:1.6),(hair wave:1.3),输入后点击「Generate」,等待片刻,即可生成视频。5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间,待状态显示为「运行中」后,点击「API 地址」边上的跳转箭头,打开 Demo。

2024-08-26 18:58:56 465

原创 DeepSeek 数学大模型现可一键部署!LongWriter-6k数据集上线,助力大模型万字长文输出

该模型在 DeepSeekMath-Base 上进行了预训练,专门研究形式化数学语言,使用从 DeepSeek-Prover-V1 得到的增强形式定理证明数据集进行监督微调。该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该数据集包含 10 小时的原始视频,约 8k 个具有代表性的视频帧,这些视频帧带有手动标注边界框和一些有用的标签,例如车辆类别和遮挡。

2024-08-26 18:09:35 692

原创 OpenBayes 一周速览|文生图新秀FLUX.1一键启动,效果超越Midjourney!阿里Qwen2-Audio上线,支持语音聊天和音频分析

FLUX.1 是一个 120 亿个参数的大模型,能够从文本描述中生成图像。ChemLLM-7B-Chat 是上海人工智能实验室开源的首个用于化学和分子科学的开源大型语言模型,可帮助化学研究者跨越语言障碍,准确地翻译化学文献中的专有名词。该数据集包含 12 个子集,对应 12 个不同的对象,有 10,821 张图像,其中 9,621 个正常样本和 1,200 个异常样本。该数据集是由关于化学分子和反应的 9 个任务组成,包含 4,100 个多项选择题,该基准为客观衡量大语言模型的化学水平奠定了基础。

2024-08-19 15:50:18 513

原创 OpenBayes 开学季特惠 | 福利抽奖 + 充值返现,100% 中奖率等你来冲!

单笔充值金额满 ¥19.9(含),即可参与抽奖,中奖概率 100%,最高可得 10 小时 RTX 4090 算力时长。* 单笔充值满 ¥1000(含)-¥4999(含),返现 15%,加赠 20h RTX 4090。* 单笔充值满 ¥5000(含),返现 20%,加赠 100h RTX 4090。* 单笔充值满 ¥100(含)-¥499(含),返现 10%* 单笔充值满 ¥500(含)-¥999(含),返现 15%* 单笔充值满 ¥50(含)-¥99(含),返现 5%

2024-08-19 15:16:30 348

原创 OpenBayes 一周速览|Meta最大视频分割数据集SA-V上线;9.1k星!腾讯文生图再升级

这个数据集的发布,加上 SAM 2 模型的开源,为研究者和开发者提供了强大的工具,以探索视频编辑、混合现实、机器人技术、自动驾驶和视频内容理解等多个领域的新应用和创新。该数据集包含 3,214 张大小为 1,280×720 的模糊图像,其中 2,103 张是训练图像,1,111 张是测试图像。该数据集是用于检测跌倒行为的图像数据集,包含图像文件夹和标签文件夹。该数据集包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。

2024-08-13 17:09:04 427

原创 OpenBayes 教程上新 | 仅需 1 张图片即可生成完整绘画过程,Lvmin Zhang 新作 Paints-Undo 上线!

当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「Paints-Undo 一张图生成绘画全过程 Demo」的页面。近年来,AI 绘画发展迅猛,衍生出了超多有意思的玩法——文生图、图像修复/增强、风格变换/迁移等等,一句 prompt,一张参考图像,只需数秒即可获得生动且颇具艺术性的图片。从技术层面来看,AI 绘画是从文字语言出发的,前期训练过程中,模型学会了图像与文本之间的「翻译机制」,所以能够理解文字所对应的图片元素,并反向生成对应的图像。3. 点击右下角「下一步:选择算力」。

2024-08-13 16:56:42 224

原创 OpenBayes 一周速览丨大大大模型强势来袭!Mistral-Large-2、Llama-3.1-405B 现已可用

7.29-8.3 Weekly Report!

2024-08-07 18:35:27 570

原创 OpenBayes在线教程 | 当 Llama 3.1 405B 遇上 Mistral Large 2,谁才是大模型赛道的卷王?

大大大模型来袭!

2024-08-07 18:24:33 718

原创 Paints-Undo 一键还原绘画全过程!VISO 卫星遥感视频数据集上线

PaintsUndo 是一个可以模拟人类绘画行为的基本模型,该模型将图像作为输入,然后输出该图像的绘制序列,模拟了人类在绘图过程中的行为。VISO 数据集由吉林一号卫星平台拍摄的高分辨率视频组成,旨在推动卫星视频分析领域的技术进步,应对其中存在的挑战,如目标尺寸小、空间分辨率低、外观和纹理信息有限等。Qwen2-7B-Instruct-GPTQ-Int8 是一个经过指令微调的约 70 亿参数大语言模型,采用 GPTQ 量化技术将权重量化为 8 位整数,以减少模型大小并加速推理,同时保持较高的性能。

2024-07-30 18:00:00 341

原创 OpenBayes 教程上新 | 文生图、图生图、图像修复三合一神器, HiDiffusion 一键启动教程现已上线!

切换至「图像生成图像」界面。上传一张参考图像,输入正向提示词 (The Joker, high face detail, high detail, muted color, 8k) 与反向提示词 (blurry, ugly, duplicate, poorly drawn, deformed, mosaic) ,可以看到它根据我们的提示词,将男人的照片修改为了 Joker。打开 Demo 后,可以看到左上方菜单栏分别为「文本生成图像」,「图像生成图像」以及「修复图像」。

2024-07-29 16:49:36 871

原创 OpenBayes 一周速览丨图像生成评估新基准 DreamBench++ 上线,清华强推!立即启动 Fish Speech 克隆专属声音

该数据集简称 ToT,分为三个子集:ToT-semantic 包含 1,850 个示例、ToT-arithmetic 包含 2,800 个示例、ToT-semantic-large 包含 46,480 个示例,ToT 数据集能够在更大的尺度上衡量时间理解的语义和逻辑。该模型是首个基于 Google/Gemma-2-9B-it 构建的指令调优语言模型,专门针对中文和英文用户进行了微调,显著减少了「中文问题带英文答案」和中英文混合的问题,还提升了逻辑推理、编程、数学及写作能力。

2024-07-22 15:06:43 485

原创 OpenBayes 教程上新 | Stable Diffusion 3 Medium 现已开源,一键开启你的创作之旅!

2. 在绿色文本框中输入 Prompt,例如「a shorthair cat」,在红色文本框中输入 Negative Prompt,例如「bad quality, poor quality, disfigured, bad anatomy, missing limbs, missing fingers」,点击「Queue Prompt」生成。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「ComfyUI Stable Diffusion 3 工作流在线教程」的页面。

2024-07-22 14:38:32 353

原创 OpenBayes 一周速览丨首个云平台部署Cambrian-1教程来了,Lecun团队&谢赛宁新作!在线运行ComfyUI SD3工作流

这个项目的核心目标是探索和评估不同的视觉表征,以及它们如何与大型语言模型相结合,从而推动视觉表示学习的进步,并提供对模型和架构的新见解。这个数据集包含约 300k 条高质量的对话,是通过一个自动化的自合成过程生成的,该过程利用了对齐的 LLMs 的自回归特性来生成用户查询和相应的回复。每个条目都包含有关角色、媒体来源和涉及角色场景的详细信息。该数据集包含 118,010 张不同的图片,涵盖 12 种不同的模态,涉及超过 20 个不同的人体器官和部位,解决了现有医学图像数据集在多样性和真实性方面的不足。

2024-07-09 17:45:15 788

原创 OpenBayes 教程上新 | 清华大学强推!YOLOv10 实现更高效的目标检测

当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「YOLOv10 实时端到端目标检测」的页面。1. 打开 YOLOv10 实时端到端目标检测 Demo 页面,上传一张照片,点击 Detect Objects,稍等片刻即可输出结果,可以看到它成功识别出了图中的小猫和小狗。1. 登录 OpenBayes.com,在「公共教程」页面,选择「YOLOv10 实时端到端目标检测」。4. 页面跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。

2024-07-09 17:12:30 509

原创 OpenBayes 教程上新 | CVPR 获奖项目,BioCLlP 快速识别生物种类,再也不会弄混小浣熊和小熊猫了!

1. 打开 BioCLIP 生物分类的层次预测 Demo 页面,上传一张动物照片,点击 Submit,稍等片刻即可输出结果,可以看到它成功识别出了图中生物为浣熊 (Tres Marias raccoon)。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 BioCLIP 生物分类的层次预测 Demo 的页面。1. 登录 OpenBayes.com,在「公共教程」页面,选择「BioCLIP 生物分类的层次预测 Demo」。3. 点击右下角「下一步:选择算力」。

2024-07-01 19:26:27 425

原创 OpenBayes 一周速览|千万级指令数据集开源!腾讯、南开大学联合推出 PhotoMaker 任意风格化图像生成 Demo,多种生成方式可试玩

该模型是 Mistral AI 团队开发的一款大型语言模型,具有 7 亿参数,利用了分组查询注意力 (GQA) 来加快推理速度,并结合滑动窗口注意力 (SWA) 有效处理任意长度的序列,同时降低推理成本,旨在提供卓越的性能和效率。该数据集是由西北工业大学 (NWPU) 创建的 REmote 传感图像场景分类 (RESISC) 的公开可用基准,包含像素大小为 256*256 的 31,500 个图像,涵盖 45 个场景类,每个类有 700 个图像。这个模型专注于提供强大的多语言能力,支持 23 种语言。

2024-06-24 18:26:42 367

原创 OpenBayes 教程上新 | 5 秒完成高考作文,Llama 3-Chinese-Chat Demo 上线!

当状态变为「运行中」后,将鼠标移动至「API 地址」后,复制该地址并在新标签页打开,即可跳转至 Llama 3-Chinese-Chat-8B Demo 页面。Llama 3 自发布以来备受关注,并被誉为「迄今为止最好的开源大模型」,但 Llama 3 在支持中文方面仍然存在一些问题,比如在使用中文提问时,经常发生英文回复或者中英混合回复的情况,非常不方便。1. 登录 OpenBayes.com,在「公共教程」页面,选择「一键部署 Llama 3-Chinese-Chat-8B Demo」。

2024-06-24 17:56:39 347

原创 一周速览|img2img-turbo 简笔画秒变艺术品!一键部署 GLM-4-9B-Chat,函数调用能力堪比 GPT-4

GLM-4-9B-Chat 在语义、数学、推理、代码和知识等多方面的数据集测评中,均表现出较高的性能,其函数调用能力堪比 GPT-4!该模型是是基于 Meta-Llama-3-8B-Instruct 构建的,拥有 19 亿参数,支持中文和英文两种语言,能够处理高达 8K 的文本长度和 1344x1344 分辨率的图片。该数据集共有 800 张图像,其中包含的目标有 650 张,背景图像有 150 张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆 10 个类别。

2024-06-12 18:01:51 569

原创 别等了!速来体验 GLM-4-9B-Chat

当状态变为「运行中」后,将鼠标移动至「API 地址」后,复制该地址并在新标签页打开,即可跳转至 GLM-4-9B-Chat Demo 页面。官方给出的数据显示,对比训练量更多的 Llama-3-8B 模型,GLM-4-9B 在中文学科方面的提升高达 50%,在多模态方面可以比肩 GPT-4V。1. 打开 GLM-4-9B-Chat Demo 页面,在对话框内容输入文本,点击「Submit」后,即可开始对话。,在「公共教程」页面,选择「一键部署 GLM-4-9B-Chat Demo」。

2024-06-06 16:16:07 626

原创 港中文、腾讯强推!DynamiCrafter WebUI 在线教程,无需逐帧记录即可图片变视频

让所有图片动起来!

2024-06-04 12:33:30 1117 1

原创 一周速览丨YOLOv10 模型+应用一站式体验!一键部署 Llama 3-Chinese-Chat-8b

LCCC 旨在推动中文对话生成领域的研究,提供了高质量的中文对话数据,这些数据经过严格的清洗流程,以确保数据的质量。该教程使用的模型为上文提到的首个 Llama 3 中文版,是一个面向中文和英文用户进行了指令微调的语言模型,具备角色扮演和工具使用等多种能力。只需克隆并启动该容器,直接复制生成的 API 地址,即可对模型进行推理体验。该数据集共有 800 张图像,其中包含目标有的 650 张,背景图像有 150 张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆 10 个类别。

2024-06-04 12:15:58 465

原创 DynamiCrafter ComfyUI 教程 | 对图片转视频的效果进行精细化控制

让所有图片动起来!

2024-06-03 20:07:58 1338

原创 OpenBayes 一周速览|TripoSR 开源:1 秒即 2D 变 3D、经典 GTZAN 音乐数据集上线

TripoSR 由 Stability AI 和 Tripo AI 合作开发,可在 1 秒钟内根据单张图像生成高质量的 3D 模型,并且对算力的需求很低,因此普通用户也可以轻松在本地设备上使用它。该数据集包含大约 30,000 张不同表情的面部 RGB 图像,图像的尺寸均为 48×48 像素,主要标注了 7 种类型的表情:0 = 愤怒,1 = 厌恶,2 = 恐惧,3 = 快乐,4 = 悲伤,5 = 惊奇,6 = 中立。GTZAN 数据集包含了 10 个不同类型的音乐样本,每个类型包含 100 个样本。

2024-05-27 22:06:00 920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除