生成式AI
文章平均质量分 88
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
最新综述:多模态引导的基于文生图大模型的图像编辑算法
近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。图2.综述框架旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为的常用工具。原创 2024-07-09 10:20:50 · 266 阅读 · 0 评论 -
ChatTTS:对话式文本转语音模型,开源啦!突破开源语音天花板...
最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS:对话式文本转语音模型项目地址:https://github.com/2noise/ChatTTS/tree/main体验地址:https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。原创 2024-06-04 15:12:51 · 673 阅读 · 2 评论 -
2023人工智能全景报告《State of AI Report》出炉!AI未来一年的10大预测:GPT-4仍是全球最强,GenAI 大爆发,...
然而,Meta 高举开源AI的旗帜,先后发布开源大模型 Llama、Llama2,选择向公众开放模型权重等技术细节,掀起了一场开放竞争的大语言模型竞赛,并形成了开源与专有大模型之间的抗衡。OpenAI 公布了的 GPT-4 技术报告,可参考的内容非常有限,几乎没有发布什么有价值的信息,Google的 PaLM 2 技术报告亦是如此,而 Anthropic 直接选择不发布 Claude 和 Claude 2 的技术报告。虽然专有闭源模型最受关注,但人们对开源且允许商业用途的 LLM 的兴趣在增加。原创 2023-10-19 13:01:04 · 828 阅读 · 0 评论 -
再炸AI绘图圈:2秒文成图,最快的移动端Stable Diffusion模型;Stability AI推出Uncrop Clipdrop更新一键扩图
(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?比如横图变竖图,竖图变横图等。(1)UNet 结构上的优化:通过分析原有 UNet 的速度瓶颈,本文提出一套 UNet 结构自动评估、进化流程,得到了更为高效的 UNet 结构(称为 Efficient UNet)。原创 2023-07-06 12:19:10 · 932 阅读 · 0 评论 -
杠上了,AI绘画圈激烈开战,Midjourney 和 Stable Diffusion 双双更新!
Midjourney V5版本,5月迎来了一个小版本更新:V5.1就很让人惊喜了。和之前的版本相比,V5.1更具主观性,短提示也容易多,还加了一个“无主观性”模式(RAW Mode)。相比V5.0,V5.1表现出更高的连贯性、对文本提示更加精确、边框或文本残留物更少、改善了锐度。6月23日,Midjourney 推出了最新 Midjourney 5.2 版本,此次主要的更新的引入了“Zoom out”功能。原创 2023-07-06 10:44:44 · 283 阅读 · 0 评论 -
OpenAI网站突破10亿月活,收割「大模型代码生成排行榜」第一第二名!
如下表所示,GPT-4 的表现优于其他 LLMs,包括 text-davincit-003 (ChatGPT的基础模型) 和其他专门在code、code-davinci-002 和 CODEGEN-16B [NPH+22]上训练的模型。在GPT-4的技术报告《GPT-4 Technical Report》一文中,GPT-4 在 HumanEval 上的pass@1准确率(衡量了模型在第一次尝试中是否产生了正确的解决方案)是67%,而Plappert的测试则达到了73%。原创 2023-07-06 10:37:52 · 233 阅读 · 0 评论 -
ChatGPT的平替来了?一文总结 ChatGPT 的开源平替,你值得拥有
2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。再加上前段时间 GPT-4 的发布,ChatGPT 也有了更强大的推理和多模态能力,OpenAI 几乎不可能将其开源。然而,表现欠佳的「其他」阵营却一直在做开源方面的努力。本文总结了目前业界开源且适合中文的类ChatGPT项目。原创 2023-03-31 10:49:46 · 21663 阅读 · 4 评论 -
谷歌发布史上最大「机器人、视觉和语言“通才”」模型:PaLM-E 562B
2023年3月6日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合,足足有5620亿参数,可以称之为「史上最大视觉语言模型(VLM)」,无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。原创 2023-03-17 12:07:12 · 445 阅读 · 0 评论 -
ChatExcel:ChatGPT后又一个有趣的应用!
如果不满意,还可以修改query,与它交互,不断更新生成的效果。而 ChatExcel 想打造的是一个交互式AIGC,即同时输入用户需求(voice or text)以及待操作的目标物(Objects),生成基于需求进行相应更新的目标物(updated objects)的循环过程,而不仅仅是从用户需求到目标物的映射关系。目前,ChatExcel 是通过文字聊天实现Excel的交互控制的AI辅助工具,通过对表输入需求即可得到处理后的数据,减少额外的操作,辅助相关工作人员(会计,教师等)更简单的工作。原创 2023-03-17 11:32:45 · 7062 阅读 · 2 评论 -
一文详解 ChatGPT:背后的技术,数据,未来发展
LM有基于大量训练数据的天然的迁移学习能力,但要在新域上获得较好的性能,使用Fine-tuning,就要求重新多次训练预训练模型,导致吃内存。ChatGPT 的卓越表现得益于其背后多项核心算法的支持和配合,包括作为其实现基础的 Transformer 模型、激发出其所蕴含知识的 Prompt/Instruction Tuning 算法、其涌现出的思维链(COT)能力、以及确保其与人类意图对齐的基于人类反馈的强化学习(RLHF)算法。Prompt Tuning的本质是改变任务格式,从而迎合大模型的性能。原创 2023-03-17 10:36:06 · 10353 阅读 · 0 评论