自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周红伟讲AI

人工智能科学家,培训AI和ChatGPT学员超过10万人。

  • 博客(1990)
  • 收藏
  • 关注

原创 AIGC时代:大模型ChatGPT的技术实现原理、行业实践以及商业变现途径

大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任猪八戒大数据科学家/曾任马上消费金融风控负责人。

2024-02-02 10:01:18 1283

原创 迎接人工智能的下一个时代:ChatGPT的技术实现原理、行业实践以及商业变现途径

S2023年,以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识:AIGC绝非昙花一现,其底层技术和产业生态已经形成了新的格局。就内容生产而言,AIGC作为新的生产力引擎,让我们从过去的PGC、UGC,已经不可避免地进入AIGC时代。AIGC代表着AI技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。经过了2022年的预热,2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、

2015-09-21 21:24:20 8433 3

原创 李想:产品爆款设计工具手册,我是怎么设计爆款产品的秘密!

我常跟公司的同事讲,如果你用了过度冗余的东西,但并不能创造出实际的产品价值,那只是你在自己刷存在感,或者说你跟这家供应商关系好,否则没法解释,为什么你要加一个对用户没有明确价值的功能或者零部件上去。一个人从开始工作,到成家立业,再到生儿育女,赡养老人,不同的人生阶段,需要车来帮助他完成的任务,其实是不一样的。在理想汽车,我们有自己的产品工具PEA,结合自己的产品、业务特性,在产品启动前,就规划清楚的目标和指标,在复盘时,我们可以直接对照PEA中的计划和路径来复盘,这样复盘就有了明确的抓手。

2024-12-25 17:48:27 394

原创 【无标题】

coze

2024-12-04 19:57:10 123

原创 突发:OpenAI o1颠覆了人类,o1为什么超越了人类,sam万字长文解读

2024 年 9 月 12 日,OpenAI 发布了其最新的人工智能模型——o1(Learning to Reason with LLMs[1]),这是一款经过强化学习训练的大型语言模型,能够执行复杂的推理任务。相比于此前的 GPT-4o(GPT-4o:OpenAI 发布最强人机交互模型,OpenAI 生态布局:GPT-4o 免费或许只是一个开始...,ChatGPT 全新升级:GPT-4o Mini 取代 GPT-3.5,免费、快速、更强大!

2024-09-28 08:19:35 1467

原创 突发:Sam万字长文,OpenAI o1超越人类,o1模型训练原理、微调、能力来源-AI已死,大模型当立

北京时间2024年9月13日凌晨,OpenAI正式发布了新的人工智能模型o1(o是orion猎户座,1代表从头再来,也意味着后续将出现更多序列),就是此前OpenAI一直在高调宣传的草莓大模型。OpenAI没有延续使用GPT序列,可见其与传统预训练模型有新的变革性训练方法和功能,o1具备复杂推理能力,解决比目前专业的科学、代码和数学模型所能解决的更难的问题。o1在解决复杂问题时能够进行深入的思考,并通过内部的思考链来逐步解决问题,这在一定程度上模拟了人类的慢思考过程,展示了向AGI迈进的潜力。

2024-09-28 08:14:25 983

原创 突发:Sam Altman指出AI时代已死,ASI超级智能时代来临!

今天,Sam Altman很罕见的在他的个人网站上发布了一篇推文:The Intelligence Age(智能时代)。在这篇文章中,Altman毫不客气地表达了自己对未来社会进步的展望,核心观点我列在这里了:在未来几十年,人类社会终将实现前所未有的进步。借助AI,这种进步还会疯狂加速;未来,AI会成为新的支柱。我们每个人都可以有一个属于自己的AI团队,团队成员将是不同领域的顶尖AI专家。这种超级智能,将会在数千天内实现!AI会创造难以想象的机遇:个性化教育、完善的医疗、协助工作等。

2024-09-27 11:26:31 727

原创 Sam Altman认为人类也许永远无法进入降级智能时代,主要是人类的故步自封造成的

9月23日,Sam Altman发表智能时代长文,表达AI的发展(深度学习的提升、AI即将成为个人助理)将对社会带来前所未来的改变,未来AI对生活工作的融入,人类社会将出现无限繁荣……经过数千年的科学发现和技术进步,人类已经知道如何熔化沙子,添加一些杂质,以惊人的精度在极小的规模上将其排列成计算机芯片,并通过它运行能量,最终得到能够创造出越来越强大的人工智能系统。虽然还有很多细节需要解决,但最主要的是,人工智能将随着规模的扩大而变得更好,将为世界各地人们的生活带来有意义的改善。

2024-09-27 11:21:50 696

原创 爆了,Llama 3.5 405B 爆超GPT-4o,参数直接飙到405B,开源终于战胜了闭源大模型GPT-4o

并且 Llama 3.1 405B 在 ZeroSCROLLS/QUALITY 基准测试的得分为 95.2,也意味着其具有强大整合大量文本信息的能力,这些结果表明,LLaMA3.1 405B 模型在处理长文本方面出色,对于关注 LLM 在 RAG 方面性能的 AI 应用开发者来说,可谓是相当友好。而在「我一把把把住了」的拼音标注上,其表现也尚可。简单来说,最新发布的 Llama 3.1 405B 是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型,更是全球最强的大模型。

2024-07-26 16:43:20 1354

原创 大模型原理、微调、和部署实战课

周红伟。

2024-07-26 12:14:24 491

原创 大模型的微调和部署-周红伟老师

-实验环境,个人或分组环境信息,以及相关操作说明。--Vision Transformer整体架构。--包括使用到的开源大模型,语料集,操作全流程等。--Transformer Encoder模块。--涉及的源码、预训练模型文件和词表文件等下载。--Vision Transformer训练。--Stable Diffusion模型架构。--Patch Embedding层。--“各个击破”VS. “一次到位”--Diffusion Model工作原理。--Transformer核心结构。

2024-07-26 11:55:25 523

原创 大模型原理、微调和行业大模型的部署

不仅系统讲解了LLM和ChatGLM4的技术原理, 还通过代码解析和实战项目深度剖析了相关技术在工程落地中的关键环节, 有助于学员全面掌握大模型相关知识和动手实战能力。本课程首先讲述了有关Transformer和大语言模型(LLM)的关键前置知识, 包括注意力机制、多头注意力、编码器-解码器结构等Transformer原理, 以及LLM的文本生成和LLM微调技术原理。- LLM的文本生成策略: 包括贪婪搜索、束搜索、随机采样、温度采样、Top-k采样和Top-p采样等。

2024-07-26 11:53:45 510

原创 AI人才争夺战,马斯克直呼“史上最疯狂”!

开放传神联合创始人兼首席市场官(CMO)张家庆在接受证券时报记者采访时表示,大模型发展已进入深水区,赋能千行百业,这时需要的人才也更加多样化,包括数据处理、模型训练、基于大模型的应用开发等。在传出“xAI从特斯拉挖人”消息后,马斯克发帖解释称,看似是xAI跟特斯拉“抢人”,实质却是Open AI挖角特斯拉,“xAI如果不提供offer,人就被Open AI挖走了。ChatGPT为代表的生成式AI掀起技术热潮,国内头部企业纷纷抢先布局,积极探索生成式AI大模型的赋能边界和应用,催生了对应方向岗位人才的火热。

2024-04-07 11:03:07 472

原创 How to develop Sora

including。

2024-04-03 14:54:45 1173

原创 Sora Replication Solution with 46% Cost Reduction, Sequence Expansion to Nearly a Million

also。

2024-04-03 14:52:42 1038

原创 史诗级对话!黄仁勋对谈Transformer八位作者:大模型从何而来,下一步会如何发展?

我已经稍微谈到了生物软件的一些内容,对我个人而言,在 2021 年,我共同创立了 Inceptive,主要是因为意识到这项技术可以对商业生活产生更直接的影响,甚至比之前的广泛应用更为直接。我们相信,如果能够加速代表 99% 运行时间的 1% 代码,那么将获得巨大的好处,可以实现一些之前认为不可能的事情,或者将需要大量金钱或能量的事情变得更加成本效益和节能。是的,你提到的这些早期模型在当时的研究领域确实起到了一定作用,但由于 Transformer 模型的出现,人们可能忘记了它们的存在。是令人兴奋的一步吗?

2024-03-21 20:54:30 950

原创 陈巍:Sora大模型技术精要万字详解(上)——原理、关键技术、模型架构详解与应用

我们将Sora的技术特点划分为输入输出特征、功能特征、时空与角色一致性三类。以往的文生视频算法多数是采用公开训练数据,生成的视频多数不够美观,分辨率低,而且在生成视频的过程中,无法精准体现文本提示的内容,用户的文本提示难以转化为高清高质量视频。当然更大的难点是视频中主角运动不连贯或不自然,在镜头移动的时候,主体边缘容易畸变,特别是人物表情细节的畸变严重影响视频的表达效果。Sora技术特征图示(来源:Data Science Dojo)

2024-03-21 16:16:29 7363

原创 微信向量检索分析一体化数仓探索:OLAP For Embedding

万物皆可 Embedding,向量是 AI 理解世界的通用模式 ”:""An embedding is a mapping from discrete objects, such as words, to vectors of real numbers.     — Tensorflow 社区可以看到,Embedding 是真实世界中“离散”的实体,映射到“连续”向量空间的一种表示。

2024-03-21 15:58:31 945

原创 Sora底层技术原理:Stable Diffusion运行原理

下图是一个基本的文生图流程,把中间的 Stable Diffusion 结构看成一个黑盒,那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”,利用这项技术,输出了最右边符合输入要求的生成图片,图中产生了蓝天白云和一望无际的广阔海滩。首先,要有一个具有文本串和计算机视觉配对的数据集。注意力模块的作用是,当输入提示词来生成图片时,比如输入 “一匹马在吃草”,由于模型已经能捕捉图文相关性以及文本中的重点信息,当看到 “马”时,注意力机制会重点突出图像“马”的生成;

2024-03-21 15:55:57 1127

原创 主流大语言模型的技术原理细节

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

2024-03-21 15:47:46 754

原创 ​浅析多模态大模型技术路线梳理

模型的整体框架如下所示,我们从下往上看:首先一张图片会经过视觉模块(ViT&Q-Former)进行编码得到一个图像 embedding,由于视觉模块给出的 embedding 不能够直接被语言模型理解,因此一般需要将视觉 embedding 和文本 embedding 进行对齐,这里加入了一个线性层,可以理解为这里假设图片编码器得到的输出经过一个线性层后就能够被语言模型理解了,然后将原始的文本信息和经过对齐后的图像信息拼接起来,送入 LLM,就可以实现能够接受多模态信息的 GPT 了。

2024-03-21 15:47:15 3118

原创 OpenAI Sora文生视频模型技术报告中英全文

我们最大的模型Sora能够生成一分钟的高保真视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像,长达一分钟的高清视频。我们将Sora与一个版本的模型进行了比较,该模型将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向前或向后延长视频的时间等。

2024-03-21 15:37:30 952

原创 Sora的前世今生:从文生图到文生视频

然后我们对14x14的特征图做上采样或者反卷积,得到28x28的特征图,这个28x28的特征图与之前的28x28的特征图进行通道上的拼接,然后再对拼接之后的特征图做卷积和上采样,得到56x56的特征图,再与之前的56x56的特征拼接,卷积,再上采样,经过四次上采样可以得到一个与输入图像尺寸相同的224x224的预测结果。为了使得视频的生成连贯,那在VAE编解码的过程自然需要去考虑视频不同帧的关系,原来对图片进行处理相当于考虑的是图片空间上的关系,现在换到视频就是多了时间上的关系,也就是经典的时空。

2024-03-21 15:27:14 443

原创 Vision Transformer(ViT)PyTorch代码全解析

可以看到,如果指定池化方式为'mean'的话,则会对全部token做平均池化,然后全部进行送到mlp中,但是我们可以看到,默认的self.pool='cls',也就是说默认不会进行平均池化,而是按照ViT的设计只使用cls_token,即x[:, 0]只取第一个token(cls_token)。都是搭建网络时常用的PyTorch包,其中在卷积神经网络的搭建中并不常用的einops和einsum,还不熟悉的读者可以参考博客:einops和einsum:直接操作张量的利器。

2024-03-14 10:25:50 379

原创 【图像生成】(四) Diffusion原理 & pytorch代码实例

在第二个公式中,为高斯函数的输出,为高斯函数的输入,而为高斯函数的均值,为高斯函数的方差。推理的时候从随机的初始噪声开始,预测当前噪声的上一个step的正态分布噪声,然后根据采样公式得到反向扩散的均值和方差,最后根据重整化公式计算出上一个step的图像。训练时随机选择step和随机生成正态分布噪声,通过叠加后得到加噪图像,然后将加噪图像和step一起输入进Unet中,得到当前step的预测正态分布噪声,并与真实正态分布噪声计算loss。在噪声微小的前提下,逆向的去噪过程也可以等同于预测高斯噪声。

2024-03-13 22:07:14 1526 2

原创 Diffusion Models 简单代码示例

扩散模型的目标是通过数据在潜在空间(latent space)的扩散过程,学习数据的潜在向量结构(latent structure),通俗点说,扩散模型学习利用数据逐步变成噪声的过程,学习反向的去噪声过程。你可以从下面两个视频中的解释,理解扩散模型背后的理论和实现。conditional diffusion 模型的代码:与unconditional的不同,conditional diffusion在预测噪音是需要输入标签信息,同时使用unconditional的噪音,进行线性插值,获得用于复原样本的噪音。

2024-03-13 21:53:59 1145 1

原创 Diffusion 公式和代码解读

2、训练过程的损失函数。下面就是代码实现过程。

2024-03-13 21:29:10 233

原创 Diffusion 公式推导和代码实现

预测噪声Diffusion model(一): 公式推导详解。

2024-03-13 16:31:09 1113

原创 diffusion

""""""else:"""Arguments:"""""""""""""""return (""""""else:else:else:return (""""""

2024-03-13 15:00:04 489

原创 扩散模型 (Diffusion Model) 简要介绍与源码分析

扩散模型 (Diffusion Model) 简要介绍与源码分析前言广而告之总览参考文章扩散模型介绍基本原理前向阶段逆向阶段模型训练最终算法源码分析训练阶段逆向阶段总结近期同事分享了 Diffusion Model, 这才发现生成模型的发展已经到了如此惊人的地步, OpenAI 推出的Dall-E 2。

2024-03-13 14:56:56 1266

原创 Vision Transformer (ViT)初识:原理详解及代码

以ViT-B/16为例,使用一个卷积核大小为16x16,步距为16,卷积核个数为768的卷积来实现。通过卷积[224, 224, 3] -> [14, 14, 768],然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768],此时正好变成了一个二维矩阵,正是Transformer想要的。需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072],第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]

2024-03-12 13:46:37 2122

原创 What are Diffusion Models?

and, and。

2024-03-12 13:13:05 1081

原创 ​扩散模型(Diffusion Model)详解:直观理解、数学原理、PyTorch 实现​

图像生成任务就是把随机生成的向量(噪声)映射成和训练图像类似的图像。为此,扩散模型把这个过程看成是对纯噪声图像的去噪过程。通过学习把图像逐步变成纯噪声的逆操作,扩散模型可以把任何一个纯噪声图像变成有意义的图像,也就是完成图像生成。对于不同程度的读者,应该对本文有不同的认识。图像生成任务的通常做法图像生成任务需要监督VAE通过把图像编码再解码来训练一个解码器扩散模型是一类特殊的VAE,它的编码固定为加噪声,解码固定为去噪声扩散模型的优化目标:让反向过程尽可能成为正向过程的逆操作。

2024-03-12 11:42:35 7544 5

原创 Diffusion 扩散模型(DDPM)详解及torch复现

我们首先需要为我们的模型构建输入,这些输入是越来越多的噪声图像。我们可以使用论文中提供的封闭形式来单独计算任何时间步长的图像,而不是按顺序执行此操作。如果不加入@torch.no_grad(),我们很快就会耗尽内存,因为pytorch会把之前所有的图像都打包用于梯度计算。U-Net教程: https://amaarora.github.io/2020/09/13/unet.html.我们可以对每个时间步长的图像进行独立采样(高斯之和也是高斯的)我们输出一个单一的值(均值),因为方差是固定的。

2024-03-12 11:31:50 1096

原创 扩散模型 (Diffusion Model) 简要介绍与源码分析

其中为高斯噪声为模型学习的噪声��=��0,�[12‖��(��,�)‖22‖�~�(��,�0)−��(��,�)‖2]=��0,�[12‖��‖22‖1��(��−1−��1−�¯���)−1��(��−1−��1−�¯���(��,�))‖2]=��0,�[(1−��)22��(1−�¯�)‖��‖22‖��−��(��,�)‖2];其中��为高斯噪声,��为模型学习的噪声=��0,�[(1−��)22��(1−�¯�)‖��‖22‖��−��(�¯��0+1−�¯���,�)‖2]

2024-03-12 11:29:36 834

原创 扩散模型DDPM详解

扩散模型可以简单的概括为加噪和去噪两个过程:加噪:使图像 �0 最终变成了一个标准的正态分布 ��。去噪:将 ��还原为 �0。实质上扩散模型需要学习的是去噪的过程,而加噪的过程为去噪过程的训练提供了训练的标签, 如下图所示,从右到左就是一个加噪的过程,从左到右就是一个去噪的过程。

2024-03-12 11:17:19 894

原创 1. DDPM模型概述

扩散模型(DM,Diffusion Model)是一类生成模型,常见的生成模型还有GAN和VAE。扩散模型分为前向阶段和逆向阶段,在前向阶段中逐步向数据中添加噪声,直至数据变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声中还原为原始数据。前向阶段表示为图1中从右往左的过程。从原始图像�0开始,第�步在��−1的基础上添加噪声得到��。��只与��−1有关,直至�步后��完全变为高斯噪声。逆向过程表示为图1中从左往右的过程。首先给定高斯噪声��,通过逐步去噪,直至将原始数据�0恢复。

2024-03-12 11:14:50 580

原创 原理+代码:Diffusion Model 直观理解

DDPM中使用linear schedule定义 �。

2024-03-12 11:13:19 485

原创 图解Diffusion扩散模型+代码

推理出了diffusion模型的损失函数,从最小化对数似然,到优化变分下界,简化变分下界,得到最后目标,预测噪声。提供了两版代码,其中条件生成与时下最火的text2image原理类似,只是text2image不仅仅使用单一类别作为编码。参考novelai。作为新一代生成模型,diffusion训练的过程可谓是十分的稳定,调参也比GAN相对简单不少!想要更好结果,我们只需要加大T,加大epoch即可。

2024-03-12 11:09:25 1241

原创 10分钟读懂Diffusion:图解Diffusion扩散模型

这里还有一个原因,DDPM 中的 UNet 都是共享参数的,那如何根据不同的输入生成不同的输出,最后从一个完全的一个随机噪声变成一个有意义的图片,这还是一个非常难的问题。因此,较小的 t 代表较弱的噪声扰动,而较大的 t 代表更强的噪声扰动。的架构中,图里面用的都是 Stable Diffusion,后面介绍又主要介绍的是 Diffusion。前面介绍了 Diffusion 是如何根据输入文字生成图片的,让大家有个大概的了解,接下来会详细介绍扩散模型 Diffusion 是如何训练的,又是如何生成图片的。

2024-03-12 11:00:23 4312

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除