【LLM】
-
ChatGPT、DALL-E、Sora——OpenAI
ChatGPT 编程,安全性如何
处理图片比处理文本时间要多很多,Sora H100 一小时产生5分钟视频
sora 学会了识别和理解各种物体和动作
GPT3 1750亿 -
Claude 3——Anthropic(已经实现了对GPT-4的全面超越)
-
图生成视频,AtomoVideo——阿里巴巴、Gen2——Runway(视频生成 4k)、Pika( Pika-Pika labs AI自动对口型)
-
Moonvalley——Moonvalley.ai(视频生成)
-
Grok——Twitter(可修改回答,继续交流)
-
HeyGen——诗云科技(让视频中的人物说出任何语言)
HeyGen 5.0 数字人大升级,边走边说,2024.03 -
LLaMA——Meta
facebook 开源了 llama2 -
AI 锐化,丰富细节,加入光影,使AI生成的图像更真实
-
Midjourney,NiJi 二次元生成模型——Midjourney
-
vivo 蓝心,AI 大模型助手
-
AI搜索引擎 globe explorer
-
Generative Fill:比如将 PS中的 Generative Fill 和 AR 结合,了解一下~属于是一键加特技了。
-
HoloTile——迪士尼,魔法地板
-
Motionshot——阿里,转3D形象,eg dance
-
星动纪原,人形机器人
-
舌控鼠标——笔记本触摸屏
-
EvevenLabs 公司—视频配乐
-
Grok——特斯拉开源大模型,3140亿参数,百万M,十亿G,万亿T
-
阿里 champ 生成,给图片就可以跳舞
-
Nerualink,Elon Musk的公司,脑机接口,
-
Vlogger——Google,一张照片加提示词生成视频
-
kimi.ai——月之暗面,论文分析
-
udio——Udio,生成音乐
-
Simulon——Simulon,把 3D 模型塞进真实视频里
-
VideoGigaGAN——Adobe,AI视频分辨率提升模型——2024.04
-
百度智能云曦灵发布的文生3D数字人——2024.05
-
Copilot ——微软,会打字就能开发应用
未来是否 GUI ->LUI,面向自然语言编程,可以叫 Copilot pro -
Viggle,上传图片和视频模版,使得图片像视频中的动作一样动起来,eg 动物跳科目三
【杂记】
-
视频生成技术发展史
2017 《video generation from text》
(1)早期 GAN,细节容易失真,输出结果不稳定
(2)后来 Diffusion, 《video diffusion models》模拟物理学的扩散,生成图像的过程更容易控制和优化
(3)Make-A-Video 解决数据不足问题,Tune-A-Video,训练文本生成图片的模型,然后用视频 fine-tune 以获得文本生成视频的能力
(4)Runway -
sora
-
爱芯元智基于AX650N,transform支持的很好
-
LLM不断刷榜,是真的厉害还是数据被泄露(train test data,刷过真题,污染)的更严重,看zero shot learning 的能力
-
openai的生成式模型很多都是encoder decoder编解码用的,在两者之间加了diffusion然后diffusion里面有一个transform模块
Bert encoder
GBT decoder
Pika runway transformer -
sora 统一了左右脑能力
-
以前人形机器人做玩具还行,做事不行,可以训练他做1W件事情,但总有第1w零1件事情,它没有训练过,不太行
大模型出来后,核心、灵魂、驱动核心替换成大模型,教一遍(模仿),就会是一个不错的方向 -
scaling law 规模效应——大模型方法论,可以产生规则所不能教会他的智能(方法论),ps:方法论,就是关于人们认识世界、改造世界的方法的理论。它是人们用什么样的方式、方法来观察事物和处理问题。概括地说,世界观主要说明世界 “是什么” 的问题,方法论主要说明 “怎么办” 的问题。
-
transformer 四个优点
1 所有模态的输入都变成 token,序列化的数据
2 猜测下一个token
3 猜测降低训练难度(预训练的数据不用标注,只要数量足够大)
4 指数级增加模型能力 -
i couldn’t create what i don’t understand,多看多想多建立新的脑回路,创新不是瞎想
-
具身智能——是人工智能的一个发展领域,指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。可以简单理解为各种不同形态的机器人,让它们在真实的物理环境下执行各种各样的任务,来完成人工智能的进化过程——人型机器人
-
大模型思维链 CoT(Chain of Thought),给我拿一个苹果vs我饿了
-
机器人的大脑在哪?云端vs头上vs家里电脑,隐私vs安全性,云管边端,边端的意义,实时性,隐私性
-
开源:PK干不过你,就开源,从原子弹变成茶叶蛋,让技术变得不那么神秘
-
0 day漏洞vs 老漏洞,供应链漏洞(买了第三方软硬件被攻击进来了),最大的是人的漏洞
-
自然语言编程缺陷:自然语言无法做到精准描述
-
英伟达,B200(2024.3), 一个行业为英伟达打工,为电厂打工,真的健康吗?
低成本低功耗高性能的推理芯片(比如之前发展的挖矿芯片)vs全能芯片(能训练,推理,游戏加速)
推理芯片 赛道,不用训练,压低成本 -
老黄(Jensen Huang),扁平化管理,信心传递最高效
好的战略是阳谋不是阴谋,可以广而告之的
管一层(被蒙蔽)看一层(向下多看一层)
聪明的人期望很高,要有有韧性的聪明,愈挫愈勇才能走得远 -
葵花宝典——欲练此功,必先自宫——放弃360软件付费,免费,靠广告赚钱
吸心大法——学习吸收别人的优点 -
蛋白是3D折叠结构,不仅仅是序列,alpha go 加速度了新蛋白的发现,十年一个 to 一下子几千个,做药的时候,候选新蛋白也变多了,更多尝试
-
大模型落地,to B or to E(企业) or to G(政府) 比 to C 好做,避开通用大模型竞争,企业级对数据比较敏感,在某一个专用领域的大模型,
第一条,大算力,通用大模型
第二条路线,企业级,产业化,垂直化,场景化专用模型 -
智雷地雷(视觉,听觉),无人机+地雷
-
头脑体操,亲自做产品时间有限,发觉生活中各类产品的不足,
产品经理-小白模式,傻瓜模式,用户视角体验产品,发现不足,然后用专家模式改进产品 -
周鸿祎 2024 年大模型发展十大趋势判断
- 大模型无处不在,成为数字系统标配
- 开源大模型爆发
- 小模型涌现,运行在更多终端
- 大模型企业级市场崛起,向产业化、垂直化方向发展
- Agent智能体激发大模型潜能,成为超级生产力工具
- 2024是大模型应用场景之年,ToC出现杀手级应用
- 多模态成为大模型标配
- 文生图、文生视频等 AIGC 功能突破性增长
- 具身智能赋能人行机器人产业蓬勃发展
10.大模型推动基础科学取得突破
-
2024.04.09 趋势预测
- 开源模型爆发,大模型未来无处不在
- 未来大国间AGI竞争的关键是“云端超级大模型”,规模越做越大
- 大模型同时越做越小,搭载于智能终端
- 企业级大模型市场崛起,企业会同时拥有多个垂直大模型
- 多模态成为大模型的关键能力
- 文生图,文生视频等AIGC功能突破性增长
- ToC继续涌现杀手级应用
- 知识工程成为大模型落地的决定性要素
- AI Agent 激发大模型潜能成为超级生产力工具
- 人形机器人产业发展获得十倍加速
- 大模型认知能力不断提升,自动驾驶迎来革命性变化
- 大模型帮主生物科学等基础学科研究突破瓶颈
- AI 安全变得前所未有重要
- 芯片性能每年翻10倍,6年将提升100万倍,算力规模每半年翻1倍
- 能源成为AI甚至人类文明发展瓶颈,唯一破解方法是解决可控核聚变
- 大模型和硬件结合会带来新产业革命
-
agent
-
chatGPT 的训练过程
-
大模型生态,落地场景
-
人的大脑,25-30w,机房放在太空,太阳能
-
以模制模,另外的大模型来判断大模型有没有输出错误的结果
-
信息不等于知识,知识不等于智慧——training data,需要的是知识不是信息
训练素材,矛盾的
不同时代,不同人,同一个人不同时期的观点都不一样 -
低空经济
-
一个对象不适合扮演太多角色——通用大模型
大脑模型+小脑模型+反射弧
【盘古】
2023年7月,华为正式发布盘古大模型3.0,并提出3层模型架构。
-
L0:基础大模型,包括自然语言、视觉、多模态、预测、科学计算;
-
L1:N个行业大模型,比如政务、金融、制造、矿山、气象等;
-
L2:更细化场景的模型,提供“开箱即用”的模型服务
【3D AI 生成】
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
Project Page: http://one-2-3-45.com
Paper: https://arxiv.org/pdf/2306.16928.pdf
Code: https://github.com/One-2-3-45/One-2-3-45
Demo:https://huggingface.co/spaces/One-2-3-45/One-2-3-45
【多模态——指哪打哪】
仅靠“口才”就能解决视觉任务!商汤提出Shikra:新一代多模态大模型
《Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic》
https://arxiv.org/pdf/2306.15195.pdf
https://github.com/shikras/shikra
基于 CLIP 做的
会拼图
会分辨谁是镜子中的人
点作为输入也可以
Reffering Expression Generation
Referring Expression Compression
【AlphaDev:汇编版 AlphaZero】
谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
Alpha」家族再添新成员AlphaDev!谷歌大脑DeepMind合体后首发力作,全新AI系统将排序算法提速70%,C++排序库十年来首次更改。AI创造AI的时代要来了?
谷歌 DeepMind 的研究者相信,在这个较低的层级中存在许多可改进的空间,而这些改进在更高级的编程语言中可能很难发现。
AlphaDev:汇编版 AlphaZero
【ChatExcel】
老罗落泪!北大团队搞出ChatExcel,说人话自动处理表格,免费且不限次使用
【分割一切视频版】
《Tracking Anything with Decoupled Video Segmentation》(ICCV 2023)
ICCV 2023开源 | 最新跟踪一切!分割一切视频版来了!
一种解耦的视频分割方法DEVA,用于"跟踪一切"。它使用双向时序传播,有效地将图像分割方法扩展到视频数据中。DEVA最大的创新在于对训练数据的需求非常低,而且可以使用现成的图像分割模型直接扩展到其他视频分割任务上,非常的通用。