AI
文章平均质量分 88
FeelTouch Labs
关注FeelTouch Labs WeiXin平台,每月都有机会免费被抽取到稀有数字藏品,2024.3月抽奖进行中~
展开
-
利用GPT4等进行大模型自动打分是否靠谱:3种评价方法、4大缺陷及4大应对方案工作解读
本文对文章《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》进行了介绍,该工作研究了LLM作为评委的用法和局限性,比如位置和言语偏差以及有限的推理能力,并提出了迁移其中一些的解决方案,这些都是可以令人深思的。转载 2024-03-22 00:56:21 · 375 阅读 · 0 评论 -
OpenAI 视频模型 Sora 科研贡献速览
Sora 是一个惊艳的视频生成模型,它以卓越的生成能力(高分辨率、长时间)与生成质量令一众同期的视频生成模型黯然失色。Sora 的技术报告非常简短,不过我们从中还是可以学到一些东西。从技术贡献上来看,Sora 的创新主要有两点:让 LDM 的自编码器也在视频时间维度上压缩。使用了一种不限制输入形状的 DiT其中,第二点贡献是非常有启发性的。DiT 能支持不同形状的输入,大概率是因为它以视频的3D位置生成位置编码,打破了一维编码的分辨率限制。转载 2024-02-19 15:01:03 · 52 阅读 · 0 评论 -
解读OpenAI Sora文生视频技术原理
非时间维度子空间内的 attention,注意到的是范畴内与范畴间的关系, 即某个时刻的状态空间。状态空间的时序,研究的是状态空间的动力学,外在驱动“力”或因素导致的状态的“流动”,即状态空间t时刻与 t-n时刻之间的关系,注意到的是其时间依赖规律,往往不具备马尔可夫性。1.状态空间对事物的表征和刻画:状态空间的高维度,某时刻的信息,即某时刻的事物的能量的概率分布,是众多维度的联合概率分布,各维度都可能具有连续性和非线性,如何用线性系统近似,并最大努力消除非线性的影响非常关键;右:DiT块的细节。转载 2024-02-19 14:53:42 · 200 阅读 · 1 评论 -
从大咖视角窥探Sora六大技术创新
在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。Sora 是扩散模型;过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如 256x256 分辨率的 4 秒视频。在较高层面上,我们首先将视频压缩到较低维的潜在空间,19 然后将表示分解为时空补丁,从而将视频转换为补丁。原创 2024-02-19 14:47:20 · 917 阅读 · 0 评论 -
AI生成视频神器Sora的原理你能读懂吗
在深入了解Sora如何处理多样化视觉数据之前,让我们首先想象这样一个生活中的场景:你正在翻看一本世界名胜的相册,这本相册中包含了不同国家、不同风格的景色照片,有的是宽阔的海景,有的是狭窄的巷道,还有的是夜晚灯火辉煌的城市风光。尽管这些照片内容和风格各异,但你能轻松地辨识每一张照片代表的地点和情感,因为你的大脑能够将这些不同的视觉信息统一理解。现在,让我们将这个过程与Sora处理多样化视觉数据的方式进行对比。Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。转载 2024-02-18 16:09:29 · 187 阅读 · 0 评论 -
大型语言模型 (LLM)全解读
大型语言模型 是一种深度学习算法,可以执行各种自然语言处理 (NLP) 任务。大型语言模型底层使用多个转换器模型底层转换器是一组神经网络。大型语言模型是使用海量数据集进行训练的超大型深度学习模型。这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。因此大型语言模型也称为神经网络 (NN),是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作,就像神经元一样。这些神经网络由具有自注意力功能的编码器和解码器组成。原创 2024-01-23 16:08:51 · 4751 阅读 · 2 评论 -
Langchain使用OpenAI报错AttributeError: module ‘openai‘ has no attribute ‘error 的解决方案
AttributeError: module 'openai' has no attribute 'error原创 2024-01-22 18:03:35 · 1789 阅读 · 0 评论