自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 OpenBayes 一周速览丨YOLOv11 来了!多任务目标检测一个模型全搞定;一键部署 OpenAI 最新语音识别模型,下载超 13 万次!

问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。该模型为 Llama 3.2-Vision 的 11B 参数大小的指令微调模型,针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化,支持英语、德语、法语等 8 种语言。该数据集包含了约 255 亿个 tokens 的医疗预料数据,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语,并且对更多语言的支持仍在不断更新和扩展中。MMMLU 多语言多任务语言理解数据集。

2024-10-15 18:40:50 832

原创 OpeneBayes 教程上新 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

视频还包括对运动员脸部的特写,展示了他们的专注和决心。近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。用户只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。

2024-10-15 17:57:30 580

原创 OpenBayes 教程上新丨打光神器 IC-Light 上线,光影效果高度一致,快速拯救废片

别慌,斯坦福博士张吕敏 (Lvmin Zhang) 开源了一款能够重塑光线的神器 IC-Light,用户可以通过简单的文本描述或背景条件来控制图像的光照效果,使得图像在视觉上与新的背景或环境融合得更加自然。对于摄影爱好者而言,光线不仅仅是照片的背景,它是照片的灵魂,是赋予画面生命力,塑造氛围感的关键。十一假期归来,相信每位小伙伴手机里都有一些内容精彩,但是光线不尽人意的照片,着实是 P 之困难,弃之可惜。,在「公共教程」页面,选择「IC-Light 图片打光神器、背景自然融合替换」。

2024-10-15 17:20:39 452

原创 OpenBayes 一周速览|IC-Light 图片打光神器一键启动!Tecnalia 电子设备废物高光谱数据集上线,提高电子废物回收准确性

这个模型特别适合创造具有经典卡通美学的异想天开和风格化的插图,其生成的图像具有手绘的质感、流畅的笔触,以及柔和的色彩。Tecnalia 高光谱数据集包含来自电机和电子设备废物 (WEEE) 的不同有色金属部分,如铜、黄铜、铝、不锈钢和白铜,图像在光谱范围 [415.05 纳米,1008.10 纳米] 内包含 76 个均匀分布的波长。该数据集记录了 10 名测试者在被试收听和想象音乐片段时记录的脑电图数据,其中包括 12 个音乐片段,每个音乐片段大约 7-16 秒且包括不同的音乐流派。

2024-09-23 20:00:58 651

原创 OpenBayes 教程上新|让虚拟偶像活起来!LivePortrait 实现超逼真表情迁移

创作者可以精确控制图像中的细微动作,生成高质量、细节丰富的动态视频,为创意和内容制作提供了极大的灵活性和便利。5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 1 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。6. 打开 Demo 后,分别上传图片和表情参考视频,点击「Animate」 ,等待片刻就会生成视频结果。4. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。

2024-09-23 19:49:13 485

原创 OpenBayes 教程上新 | AI 时代的「神笔马良」,Hyper-SD 一键启动教程上线!

5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 1 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。1. 打开 Demo 后,在绘图区简单画出形状后,输入 Prompt(例如 Lighthouse on the sea),点击「run」,即可产出图像。4. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

2024-09-18 17:52:32 422

原创 OpenBayes 一周速览|Deepfake视频识别数据集上线,含28位演员的363个视频;LLaVA OneVision多模态教程上新

清华大学联合智谱 AI 构建了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。该数据集包含两个子集:DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet。LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

2024-09-12 17:36:47 698

原创 最高可赠 100h RTX 4090,开学季特惠已不足 3 天,速来!

2024-09-12 17:19:45 405

原创 OpenBayes 教程上新 | FLUX ComfyUI 现已上线 ,让 SD 和 Midjourney 颤抖的文生图黑马!

7. 在左侧 「ai-toolkit」-「output」-「taylor swift」-「sample」文件里,可以看到我们刚刚 Test Prompt 的效果,如果效果还不错,就证明我们的模型已经训练成功了。10. 页面跳转后,在「LoRA 加载器」中选择刚刚训练好的模型,在「CLIP」中输入 Prompt(例如:a person is drinking coffee),点击「添加提示词队列」即可生成图像。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

2024-09-12 16:46:08 842

原创 轻量级 AI 革命:Phi-3.5 小模型现可一键 input!浙大领头开源多模态基准上线,含 8 大类别图像问答

使用传统的数字人训练方案生成一个高质量的数字人,常常需要大量的时间和算力资源,同时对训练素材的要求也较高。MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破,使用 MuseV 生成数字人视频后,再使用 MuseTalk 实现唇形和音频的同步,短短几分钟内即可实现完整的数字人制作。此数据集包含由 Llama-3.1-70B-Insturct 生成的 2.2k 个多轮会话,所有的对话都以 1 句问候语开始,选择的主题涵盖日常主题和基础科学,包括:20 个日常话题,每个话题有 100 个子话题;

2024-09-02 16:31:03 758

原创 OpenBayes 教程上新 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 上线!

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2000 词的连贯输出时,往往会遇到困难。3. 点击右下角「下一步:选择算力」。一键克隆即可开启对话。

2024-09-02 16:13:33 370

原创 OpenBayes 教程上新 | 青岛小哥焦恩俊版二郎神来袭,MuseV + MuseTalk 分分钟实现高质量数字人制作!

6. 打开 Demo 后,上传一张图片并输入 Prompt,Prompt 的格式为质量词+人物主体+动作词,例如 (masterpiece, best quality, highres:1),(1boy, solo:1),(eye blinks:1.6),(hair wave:1.3),输入后点击「Generate」,等待片刻,即可生成视频。5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间,待状态显示为「运行中」后,点击「API 地址」边上的跳转箭头,打开 Demo。

2024-08-26 18:58:56 459

原创 DeepSeek 数学大模型现可一键部署!LongWriter-6k数据集上线,助力大模型万字长文输出

该模型在 DeepSeekMath-Base 上进行了预训练,专门研究形式化数学语言,使用从 DeepSeek-Prover-V1 得到的增强形式定理证明数据集进行监督微调。该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该数据集包含 10 小时的原始视频,约 8k 个具有代表性的视频帧,这些视频帧带有手动标注边界框和一些有用的标签,例如车辆类别和遮挡。

2024-08-26 18:09:35 682

原创 OpenBayes 一周速览|文生图新秀FLUX.1一键启动,效果超越Midjourney!阿里Qwen2-Audio上线,支持语音聊天和音频分析

FLUX.1 是一个 120 亿个参数的大模型,能够从文本描述中生成图像。ChemLLM-7B-Chat 是上海人工智能实验室开源的首个用于化学和分子科学的开源大型语言模型,可帮助化学研究者跨越语言障碍,准确地翻译化学文献中的专有名词。该数据集包含 12 个子集,对应 12 个不同的对象,有 10,821 张图像,其中 9,621 个正常样本和 1,200 个异常样本。该数据集是由关于化学分子和反应的 9 个任务组成,包含 4,100 个多项选择题,该基准为客观衡量大语言模型的化学水平奠定了基础。

2024-08-19 15:50:18 505

原创 OpenBayes 开学季特惠 | 福利抽奖 + 充值返现,100% 中奖率等你来冲!

单笔充值金额满 ¥19.9(含),即可参与抽奖,中奖概率 100%,最高可得 10 小时 RTX 4090 算力时长。* 单笔充值满 ¥1000(含)-¥4999(含),返现 15%,加赠 20h RTX 4090。* 单笔充值满 ¥5000(含),返现 20%,加赠 100h RTX 4090。* 单笔充值满 ¥100(含)-¥499(含),返现 10%* 单笔充值满 ¥500(含)-¥999(含),返现 15%* 单笔充值满 ¥50(含)-¥99(含),返现 5%

2024-08-19 15:16:30 344

原创 OpenBayes 一周速览|Meta最大视频分割数据集SA-V上线;9.1k星!腾讯文生图再升级

这个数据集的发布,加上 SAM 2 模型的开源,为研究者和开发者提供了强大的工具,以探索视频编辑、混合现实、机器人技术、自动驾驶和视频内容理解等多个领域的新应用和创新。该数据集包含 3,214 张大小为 1,280×720 的模糊图像,其中 2,103 张是训练图像,1,111 张是测试图像。该数据集是用于检测跌倒行为的图像数据集,包含图像文件夹和标签文件夹。该数据集包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。

2024-08-13 17:09:04 412

原创 OpenBayes 教程上新 | 仅需 1 张图片即可生成完整绘画过程,Lvmin Zhang 新作 Paints-Undo 上线!

当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「Paints-Undo 一张图生成绘画全过程 Demo」的页面。近年来,AI 绘画发展迅猛,衍生出了超多有意思的玩法——文生图、图像修复/增强、风格变换/迁移等等,一句 prompt,一张参考图像,只需数秒即可获得生动且颇具艺术性的图片。从技术层面来看,AI 绘画是从文字语言出发的,前期训练过程中,模型学会了图像与文本之间的「翻译机制」,所以能够理解文字所对应的图片元素,并反向生成对应的图像。3. 点击右下角「下一步:选择算力」。

2024-08-13 16:56:42 219

原创 OpenBayes 一周速览丨大大大模型强势来袭!Mistral-Large-2、Llama-3.1-405B 现已可用

7.29-8.3 Weekly Report!

2024-08-07 18:35:27 558

原创 OpenBayes在线教程 | 当 Llama 3.1 405B 遇上 Mistral Large 2,谁才是大模型赛道的卷王?

大大大模型来袭!

2024-08-07 18:24:33 706

原创 Paints-Undo 一键还原绘画全过程!VISO 卫星遥感视频数据集上线

PaintsUndo 是一个可以模拟人类绘画行为的基本模型,该模型将图像作为输入,然后输出该图像的绘制序列,模拟了人类在绘图过程中的行为。VISO 数据集由吉林一号卫星平台拍摄的高分辨率视频组成,旨在推动卫星视频分析领域的技术进步,应对其中存在的挑战,如目标尺寸小、空间分辨率低、外观和纹理信息有限等。Qwen2-7B-Instruct-GPTQ-Int8 是一个经过指令微调的约 70 亿参数大语言模型,采用 GPTQ 量化技术将权重量化为 8 位整数,以减少模型大小并加速推理,同时保持较高的性能。

2024-07-30 18:00:00 325

原创 OpenBayes 教程上新 | 文生图、图生图、图像修复三合一神器, HiDiffusion 一键启动教程现已上线!

切换至「图像生成图像」界面。上传一张参考图像,输入正向提示词 (The Joker, high face detail, high detail, muted color, 8k) 与反向提示词 (blurry, ugly, duplicate, poorly drawn, deformed, mosaic) ,可以看到它根据我们的提示词,将男人的照片修改为了 Joker。打开 Demo 后,可以看到左上方菜单栏分别为「文本生成图像」,「图像生成图像」以及「修复图像」。

2024-07-29 16:49:36 866

原创 OpenBayes 一周速览丨图像生成评估新基准 DreamBench++ 上线,清华强推!立即启动 Fish Speech 克隆专属声音

该数据集简称 ToT,分为三个子集:ToT-semantic 包含 1,850 个示例、ToT-arithmetic 包含 2,800 个示例、ToT-semantic-large 包含 46,480 个示例,ToT 数据集能够在更大的尺度上衡量时间理解的语义和逻辑。该模型是首个基于 Google/Gemma-2-9B-it 构建的指令调优语言模型,专门针对中文和英文用户进行了微调,显著减少了「中文问题带英文答案」和中英文混合的问题,还提升了逻辑推理、编程、数学及写作能力。

2024-07-22 15:06:43 477

原创 OpenBayes 教程上新 | Stable Diffusion 3 Medium 现已开源,一键开启你的创作之旅!

2. 在绿色文本框中输入 Prompt,例如「a shorthair cat」,在红色文本框中输入 Negative Prompt,例如「bad quality, poor quality, disfigured, bad anatomy, missing limbs, missing fingers」,点击「Queue Prompt」生成。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「ComfyUI Stable Diffusion 3 工作流在线教程」的页面。

2024-07-22 14:38:32 351

原创 OpenBayes 一周速览丨首个云平台部署Cambrian-1教程来了,Lecun团队&谢赛宁新作!在线运行ComfyUI SD3工作流

这个项目的核心目标是探索和评估不同的视觉表征,以及它们如何与大型语言模型相结合,从而推动视觉表示学习的进步,并提供对模型和架构的新见解。这个数据集包含约 300k 条高质量的对话,是通过一个自动化的自合成过程生成的,该过程利用了对齐的 LLMs 的自回归特性来生成用户查询和相应的回复。每个条目都包含有关角色、媒体来源和涉及角色场景的详细信息。该数据集包含 118,010 张不同的图片,涵盖 12 种不同的模态,涉及超过 20 个不同的人体器官和部位,解决了现有医学图像数据集在多样性和真实性方面的不足。

2024-07-09 17:45:15 783

原创 OpenBayes 教程上新 | 清华大学强推!YOLOv10 实现更高效的目标检测

当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「YOLOv10 实时端到端目标检测」的页面。1. 打开 YOLOv10 实时端到端目标检测 Demo 页面,上传一张照片,点击 Detect Objects,稍等片刻即可输出结果,可以看到它成功识别出了图中的小猫和小狗。1. 登录 OpenBayes.com,在「公共教程」页面,选择「YOLOv10 实时端到端目标检测」。4. 页面跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。

2024-07-09 17:12:30 498

原创 OpenBayes 教程上新 | CVPR 获奖项目,BioCLlP 快速识别生物种类,再也不会弄混小浣熊和小熊猫了!

1. 打开 BioCLIP 生物分类的层次预测 Demo 页面,上传一张动物照片,点击 Submit,稍等片刻即可输出结果,可以看到它成功识别出了图中生物为浣熊 (Tres Marias raccoon)。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 BioCLIP 生物分类的层次预测 Demo 的页面。1. 登录 OpenBayes.com,在「公共教程」页面,选择「BioCLIP 生物分类的层次预测 Demo」。3. 点击右下角「下一步:选择算力」。

2024-07-01 19:26:27 419

原创 OpenBayes 一周速览|千万级指令数据集开源!腾讯、南开大学联合推出 PhotoMaker 任意风格化图像生成 Demo,多种生成方式可试玩

该模型是 Mistral AI 团队开发的一款大型语言模型,具有 7 亿参数,利用了分组查询注意力 (GQA) 来加快推理速度,并结合滑动窗口注意力 (SWA) 有效处理任意长度的序列,同时降低推理成本,旨在提供卓越的性能和效率。该数据集是由西北工业大学 (NWPU) 创建的 REmote 传感图像场景分类 (RESISC) 的公开可用基准,包含像素大小为 256*256 的 31,500 个图像,涵盖 45 个场景类,每个类有 700 个图像。这个模型专注于提供强大的多语言能力,支持 23 种语言。

2024-06-24 18:26:42 364

原创 OpenBayes 教程上新 | 5 秒完成高考作文,Llama 3-Chinese-Chat Demo 上线!

当状态变为「运行中」后,将鼠标移动至「API 地址」后,复制该地址并在新标签页打开,即可跳转至 Llama 3-Chinese-Chat-8B Demo 页面。Llama 3 自发布以来备受关注,并被誉为「迄今为止最好的开源大模型」,但 Llama 3 在支持中文方面仍然存在一些问题,比如在使用中文提问时,经常发生英文回复或者中英混合回复的情况,非常不方便。1. 登录 OpenBayes.com,在「公共教程」页面,选择「一键部署 Llama 3-Chinese-Chat-8B Demo」。

2024-06-24 17:56:39 341

原创 一周速览|img2img-turbo 简笔画秒变艺术品!一键部署 GLM-4-9B-Chat,函数调用能力堪比 GPT-4

GLM-4-9B-Chat 在语义、数学、推理、代码和知识等多方面的数据集测评中,均表现出较高的性能,其函数调用能力堪比 GPT-4!该模型是是基于 Meta-Llama-3-8B-Instruct 构建的,拥有 19 亿参数,支持中文和英文两种语言,能够处理高达 8K 的文本长度和 1344x1344 分辨率的图片。该数据集共有 800 张图像,其中包含的目标有 650 张,背景图像有 150 张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆 10 个类别。

2024-06-12 18:01:51 561

原创 别等了!速来体验 GLM-4-9B-Chat

当状态变为「运行中」后,将鼠标移动至「API 地址」后,复制该地址并在新标签页打开,即可跳转至 GLM-4-9B-Chat Demo 页面。官方给出的数据显示,对比训练量更多的 Llama-3-8B 模型,GLM-4-9B 在中文学科方面的提升高达 50%,在多模态方面可以比肩 GPT-4V。1. 打开 GLM-4-9B-Chat Demo 页面,在对话框内容输入文本,点击「Submit」后,即可开始对话。,在「公共教程」页面,选择「一键部署 GLM-4-9B-Chat Demo」。

2024-06-06 16:16:07 620

原创 港中文、腾讯强推!DynamiCrafter WebUI 在线教程,无需逐帧记录即可图片变视频

让所有图片动起来!

2024-06-04 12:33:30 1105 1

原创 一周速览丨YOLOv10 模型+应用一站式体验!一键部署 Llama 3-Chinese-Chat-8b

LCCC 旨在推动中文对话生成领域的研究,提供了高质量的中文对话数据,这些数据经过严格的清洗流程,以确保数据的质量。该教程使用的模型为上文提到的首个 Llama 3 中文版,是一个面向中文和英文用户进行了指令微调的语言模型,具备角色扮演和工具使用等多种能力。只需克隆并启动该容器,直接复制生成的 API 地址,即可对模型进行推理体验。该数据集共有 800 张图像,其中包含目标有的 650 张,背景图像有 150 张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆 10 个类别。

2024-06-04 12:15:58 461

原创 DynamiCrafter ComfyUI 教程 | 对图片转视频的效果进行精细化控制

让所有图片动起来!

2024-06-03 20:07:58 1304

原创 OpenBayes 一周速览|TripoSR 开源:1 秒即 2D 变 3D、经典 GTZAN 音乐数据集上线

TripoSR 由 Stability AI 和 Tripo AI 合作开发,可在 1 秒钟内根据单张图像生成高质量的 3D 模型,并且对算力的需求很低,因此普通用户也可以轻松在本地设备上使用它。该数据集包含大约 30,000 张不同表情的面部 RGB 图像,图像的尺寸均为 48×48 像素,主要标注了 7 种类型的表情:0 = 愤怒,1 = 厌恶,2 = 恐惧,3 = 快乐,4 = 悲伤,5 = 惊奇,6 = 中立。GTZAN 数据集包含了 10 个不同类型的音乐样本,每个类型包含 100 个样本。

2024-05-27 22:06:00 915

原创 OpenBayes 教程上新 |全球首个开源的文生视频 DiT 模型!对标 Sora,保姆级 Latte 文生视频使用指南

2 月 26 日,中国首部文生视频 AI 系列动画《千秋诗颂》于 CCTV-1 频道正式播出,这部动画由上海人工智能实验室和「央妈」(中央广播电视总台)强强联手,借助「央视听媒体大模型」,从美轮美奂的画面到动感十足的效果,直接把古诗里的世界带到小朋友眼前。他还曾提出,「据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。《千秋诗颂》试试看。

2024-05-27 21:34:39 504

原创 OpenBayes 一周速览丨立即体验复现 Sora!Visual7W 视觉问答数据集上线

耶鲁人脸数据库是一个面部表情数据集,主要用于身份鉴定,包含 15 个主题,其中每个主题有 11 张图像共计 165 个 GIF 格式的灰度图像,每个主题包含不同的面部表情:中心光、带眼镜、快乐、左光、没有眼镜、正常、右光、悲伤、困、惊讶和眨眼。Visual7W 是一个图像内容理解数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答任务,数据集中不仅包含图像本身,还包括图像区域内容相关的问答。每个水果类别都有单独的文件夹,并分别提供了新鲜和腐烂的不同子文件夹,表示新鲜度状态。

2024-05-20 17:34:47 312

原创 OpenBayes 一周速览|SegmentAnything 分割万物教程上新、MiniGemini 多模态模型天花板一键 input

该模型在包含 1,100 万张图像和 11 亿个掩模的数据集上进行训练,在各种分割任务上具有强大的零样本性能,实现了真正意义上的分割万物。HotpotQA 数据集是一个在英文维基百科上收集的大规模问答数据集,包括 11.3 万个维基百科问答对,该数据集是为解决 QA 数据集不能训练系统回答复杂问题和提供可解释的答案问题而提出的。「InstantID」是小红书团队开源的高质量图像生成项目,是一个基于扩散模型的图像生成解决方案,能实现从单一参考图像到多样化风格化写真的快速生成,足不出户即可获得美美艺术照。

2024-05-13 18:28:04 606

原创 最高可得 300 元现金奖励!第二期创作者激励计划现已上线

为了帮助大家快速上手,小贝不仅为大家准备了文字教程,还手把手录制了超详细的视频教程,B 站关注「OpenBayes」即可观看~点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!无论你是深度学习、数据科学或大模型的资深玩家,还是刚入门技术小白;OpenBayes贝式计算平台第二期「创作者激励计划」上线啦!无论你是拥有丰富创作经验的老手,还是刚踏入社交媒体世界的新人;

2024-05-13 17:31:11 164

原创 OpenBayes 在线教程|自拍图片秒变个人写真!小红书团队「InstantID」效果炸裂!GitHub收藏量达9.9K

更重要的是,InstantID 并不是简单的加滤镜,它玩的是「真功夫」——超高的保真度+良好的文本可编辑性,是人物的面部特征与风格样式更好地融合。更重要的是,InstantID 并不是简单的加滤镜,它玩的是「真功夫」——超高的保真度+良好的文本可编辑性,是人物的面部特征与风格样式更好地融合。,该教程为大家搭建好了环境,不需要你是编程大神,也不用再熬夜等模型下载训练,点击克隆即可一键启动,立马实现你的「七十二变」!2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

2024-05-09 17:01:32 572

原创 OpenBayes 一周速览|Apple 开源大模型 OpenELM 上线;字节发布 COCONut 首个全景图像分割数据集,入选 CVPR2024

本教程将介绍如何加载 CSV 数据集,定义多层感知器模型,并在 PyTorch 中进行训练和评估,为创建深度学习神经网络模型提供指导。COCONut 是由字节跳动发布的首个大规模人工标注的全景图像分割数据集,包含约 383K 个图像和 518 万个经过人工标注的全景分割掩码。该数据集包含 15.6 万条安徽电信问答数据,包括用户提问、网友回答、最佳回答,数据集来源为百度知道,适用于 FAQ 问答系统。该数据集包括了四个领域的中文评论:笔记本电脑、汽车、相机和手机,可被用作于自然语言处理中情感分类任务。

2024-05-09 16:43:30 585

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除