【AI】Interesting Applications

bryant_meng

已于 2025-04-22 10:14:04 修改

阅读量674

点赞数 1

分类专栏： Speech / Course 文章标签：人工智能

于 2023-10-12 00:16:03 首次发布

本文链接：https://blog.csdn.net/bryant_meng/article/details/133781445

版权

Speech / Course 专栏收录该内容

35 篇文章

订阅专栏

在这里插入图片描述

文章目录

【LLM】
【分割一切视频版】
- Direct3D
【盘古】
【Apple Vision Pro】
【杂记】

【LLM】

ChatGPT、DALL-E、Sora——OpenAI
- GPT1，2018.6，1.17亿参数
- GPT2，2019.2，15亿参数
- GPT3，2020.6，1750亿参数
- ChatGPT-1，2020.7
- ChatGPT-2，2021.9
- ChatGPT-3，2022.9
- ChatGPT-3.5，2022.11.30，ChatGPT
- GPT4，2023.3.15，
- GPT4 Turbo，2023.11.7
- GPT4o，o = omni，全能
- GPT4o mini
- o1
  快思考能力
  慢思考能力——思维链
- o1-preview
- o1-mini
- o3，12 天直播
  北京时间2024年12月10日凌晨，在OpenAI为期12天的发布会中的第三场直播里，OpenAI CEO山姆·奥特曼（Sam Altman）宣布Sora正式向用户开放。这意味着用户可以直接访问和使用Sora来生成视频内容。
  - Sora H100 一小时产生5分钟视频
  - sora 学会了识别和理解各种物体和动作
  - Sora团队负责人Aditya Ramesh
- o3 mini
- Deep Research
LLaMA——Meta
- facebook 开源了 llama2
- llama 3.1
Movie Gen，可以生成音效和配乐，Meta 版 Sora，Llama 3架构立功
Midjourney，Midjourney v6.1——Midjourney，NiJi 二次元生成模型
Claude 3——Anthropic（已经实现了对GPT-4的全面超越）
- Claude 3.5
Stable Diffusion v1.5——Stability AI
Flux1.1，Stable Diffusion原班人马打造，最新AI生图模型
mPLUG-Owl3，阿里，通用多模态大模型
支小宝——支付宝
AtomoVideo——阿里巴巴，图生成视频
通义千问——阿里
通义灵码——阿里云宣布开始在内部全面推行AI编程，让通义灵码辅助程序员写代码、读代码、查BUG、优化代码等
通义万相——阿里云，AI生视频功能
通义千问——阿里云，2.5 代码模式
元宝2.0——腾讯，更新的另一个亮点是集成了腾讯文档、电脑管家和输入法，各应用生态全部打通！
混元大模型——腾讯
Vlogger——Google，一张照片加提示词生成视频
Gemini，一款由Google DeepMind（谷歌母公司Alphabet下设立的人工智能实验室）于2023年12月6日发布的人工智能模型
Gemini 2.0 Pro、Gemini 2.0 Flash、Gemini 2.0 Flash-Lite，2.0家族集结完毕。
Gen2，Gen-3 Alpha——Runway（视频生成 4k）
- Runway版Sora：Gen-3 Alpha
- Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera
  我认为 Runway 的工作是为一个全新的媒体景观打下基础。就像相机改变了我们捕捉现实的方式，人工智能也正在改变我们创造现实的方式。Runway 构建的模型和技术只是一个开始 —— 它们相当于那些最初的银版照片，原始但充满无限可能。
  重新定义媒体：它既是互动的、生成性的、个性化的，同时又是共享和普遍的。
Pika、Pika1.5、Pika2.0（ Pika-Pika labs AI自动对口型）
Dream Machine——Luma AI（视频生成）

也支持子弹时间特效
Moonvalley——Moonvalley.ai（视频生成）
Grok——Twitter（可修改回答，继续交流）
Grok3——XAI，马斯克
HeyGen——诗云科技（让视频中的人物说出任何语言）
HeyGen 5.0 数字人大升级，边走边说，2024.03
magnific AI

AI 锐化，丰富细节，加入光影，使AI生成的图像更真实
vivo 蓝心，AI 大模型助手
AI搜索引擎 globe explorer
Generative Fill：比如将 PS中的 Generative Fill 和 AR 结合，了解一下~属于是一键加特技了。
HoloTile——迪士尼，魔法地板
Motionshot——阿里，转3D形象，eg dance
星动纪原，人形机器人
舌控鼠标——笔记本触摸屏
EvevenLabs 公司—视频配乐
Grok——特斯拉开源大模型，3140亿参数，百万M，十亿G，万亿T
阿里 champ 生成，给图片就可以跳舞
Nerualink，Elon Musk的公司，脑机接口，
kimi.ai——月之暗面，论文分析
udio——Udio，生成音乐
Simulon——Simulon，把 3D 模型塞进真实视频里
VideoGigaGAN——Adobe，AI视频分辨率提升模型——2024.04
百度智能云曦灵发布的文生3D数字人——2024.05
文心智能体平台，文心快码、文心一言，百度
Copilot ——Code Copilot GPTs正式上线！这是一个在OpenAI的编程分类中排名第一的GPTs，旨在帮助开发者更高效地编写代码，提高生产力，并提升代码质量。
未来是否 GUI ->LUI，面向自然语言编程，可以叫 Copilot pro
Viggle，上传图片和视频模版，使得图片像视频中的动作一样动起来，eg 动物跳科目三
MOKI——美图，AI短片创作平台，将于24年7月31号上线。

基于此，MOKI建立了一个AI短片工作流，覆盖整个创作周期，实现高度可控。

前期设定：AI脚本、视觉风格选择、角色设计、分镜图生成与修改；

中期制作：分镜图转为视频素材、视频生视频、驱动角色说话；

后期制作：智能剪辑、AI配乐、AI音效、自动字幕等功能串联素材并实现成片。
智源研究院
智源与中国电信人工智能研究院（TeleAI）联合研发了基于生长技术训练的全球首个低碳单体稠密万亿语言模型，中间版Tele-FLM 52B已开源
Proteus——斯坦福大学团队Apparate Labs，是新一代的基础模型，用于人类的实时表情生成
Nemotron-4 340B——Nvida——用合成数据，就可以创建性能强大的特定领域大语言模型！仅解码器Transformer架构
Hallo，一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》
Xu M, Li H, Su Q, et al. Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation[J]. arXiv preprint arXiv:2406.08801, 2024.
Chatbot Arena——大模型擂台
扣子（coze.cn）——字节跳动的——给国产大模型们组了个大局，在同一个“擂台”上，两个大模型为一组，直接以匿名的方式PK效果！
豆包——字节跳动
Doubao-1.5-pro——字节跳动
OmniHuman——字节跳动，对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成
可灵——快手
Vimi——商汤——可控人物视频生成算法模型Vimi是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力，它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片，从而生成和目标动作一致的人物类视频
日日新SenseNova 4.0——商汤，平台，含有 SenseChat、SenseMirage 等大模型
- 代码能力在HumanEval Coding评测上斩获75.6分，超越了GPT-4Turbo的74.4分
- 多模态能力在MMBench评测上，整体性能超越GPT-4V（84.4分 vs 74.4分）
- 代码解释器在数据分析领域以85.71%的正确率超越了GPT-4的84.62%
- 此外还有部分垂直领域能力，也可以实现对GPT-4 Turbo的超越
- 而推理能力则达到了GPT-4 Turbo 99%的水平
日日新SenseNova V6——商汤
硅语，guiyu，AI数字人
中山大学&字节智创数字人团队提出虚拟试穿
Zhang X, Lin E, Li X, et al. MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation[J]. arXiv preprint arXiv:2405.00448, 2024.
讯飞星火4.0——科大讯飞
六小虎：MiniMax、月之暗面、智谱AI、零一万物、百川智能、阶跃星辰
MiniMax 发布了视频模型 abab-video-1，并在海螺 AI 网页版上线了视频创作入口（主要是文生视频），正式入局 AI 视频赛道。abab-video-1、abab-music-1、abab-speech-1、abab-7，MiniMax 旗下主要有四款产品：星野、Talkie、海螺AI和开放平台
MiniMax，基础语言模型 MiniMax-Text-01、视觉多模态模型 MiniMax-VL-01
Step-1.5V、Step-2 正式版、Step-1X——阶跃星辰
至强—英特尔——千帆大模型平台——CPU 加速大模型落地
文本生成（GLM）、图像生成（CogView）、视频生成（CogVideoX）、音效生成（CogSound）、音乐生成（CogMusic）、端对端语音（GLM-4-Voice）、自主代理（AutoGLM）——智谱
Video Ocean——潞晨，支持任意角色、任意风格，可以文生视频、图生视频、角色生视频。
https://video-ocean.com/zh-CN
小马智行，楼教主要去IPO了！披露营收12亿，冲刺Robotaxi第一股

在这里插入图片描述

Vidu，北京生数科技有限公司联合清华大学发布的产品，2024年7月30日，Vidu正式上线。2024年8月1日，Vidu视频大模型全球上线。
Vidu 2.0版本发布，2025年1月，该版本速度快、内容一致性好。
Unicom v2——格灵深瞳，自研视觉大模型
Movie Gen
Playground v3，文生图参数量升至240亿
PixVerse V3、V3.5——爱诗科技，毒液
Skyo——昆仑万维，基于天工大模型4.0 4o版（Skywork 4o）打造。
SkyReels-V1——昆仑万维，开源中国首个面向AI短剧创作的视频生成模型
SkyReels-A1——昆仑万维，中国首个 SOTA 级别基于视频基座模型的表情动作可控算法。
Florence-2——Microsoft，能执行超10种视觉任务，如图像字幕、目标检测等，通过统一表示简化多任务处理，依托FLD-5B数据集实现高精度，采用seq2seq架构提升学习效率
DeepSeek V3——杭州深度求索人工智能基础技术研究有限公司，DeepSeek R1
InstantID——小红书，AI写真（风格迁移）
宇数科技

在这里插入图片描述

【分割一切视频版】

在这里插入图片描述

《Tracking Anything with Decoupled Video Segmentation》（ICCV 2023）

ICCV 2023开源 | 最新跟踪一切！分割一切视频版来了！

一种解耦的视频分割方法DEVA，用于"跟踪一切"。它使用双向时序传播，有效地将图像分割方法扩展到视频数据中。DEVA最大的创新在于对训练数据的需求非常低，而且可以使用现成的图像分割模型直接扩展到其他视频分割任务上，非常的通用。

Direct3D

DreamTech 官宣了其高质量 3D 生成大模型 Direct3D
在这里插入图片描述

【盘古】

2023年7月，华为正式发布盘古大模型3.0，并提出3层模型架构。

L0：基础大模型，包括自然语言、视觉、多模态、预测、科学计算；
L1：N个行业大模型，比如政务、金融、制造、矿山、气象等；
L2：更细化场景的模型，提供“开箱即用”的模型服务

在这里插入图片描述

2024

盘古大模型，5.0

【Apple Vision Pro】

在这里插入图片描述

空间计算操作系统（Spatial Computing OS）——vision pro

【杂记】

视频生成技术发展史

2017 《video generation from text》
（1）早期 GAN，细节容易失真，输出结果不稳定
（2）后来 Diffusion，《video diffusion models》模拟物理学的扩散，生成图像的过程更容易控制和优化
（3）Make-A-Video 解决数据不足问题，Tune-A-Video，训练文本生成图片的模型，然后用视频 fine-tune 以获得文本生成视频的能力
（4）Runway
sora
WAIC2023 十大商业落地趋势
爱芯元智基于AX650N，transform支持的很好
LLM不断刷榜，是真的厉害还是数据被泄露（train test data，刷过真题，污染）的更严重，看zero shot learning 的能力
openai的生成式模型很多都是encoder decoder编解码用的，在两者之间加了diffusion然后diffusion里面有一个transform模块
Bert encoder
GBT decoder
Pika runway transformer
sora 统一了左右脑能力
以前人形机器人做玩具还行，做事不行，可以训练他做1W件事情，但总有第1w零1件事情，它没有训练过，不太行
大模型出来后，核心、灵魂、驱动核心替换成大模型，教一遍（模仿），就会是一个不错的方向
scaling law 规模效应——大模型方法论，可以产生规则所不能教会他的智能（方法论），ps：方法论，就是关于人们认识世界、改造世界的方法的理论。它是人们用什么样的方式、方法来观察事物和处理问题。概括地说，世界观主要说明世界 “是什么” 的问题，方法论主要说明 “怎么办” 的问题。
transformer 四个优点
1 所有模态的输入都变成 token，序列化的数据
2 猜测下一个token
3 猜测降低训练难度（预训练的数据不用标注，只要数量足够大）
4 指数级增加模型能力
i couldn’t create what i don’t understand，多看多想多建立新的脑回路，创新不是瞎想
具身智能——是人工智能的一个发展领域，指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。可以简单理解为各种不同形态的机器人，让它们在真实的物理环境下执行各种各样的任务，来完成人工智能的进化过程——人型机器人
大模型思维链 CoT(Chain of Thought)，给我拿一个苹果vs我饿了
机器人的大脑在哪？云端vs头上vs家里电脑，隐私vs安全性，云管边端，边端的意义，实时性，隐私性
开源：PK干不过你，就开源，从原子弹变成茶叶蛋，让技术变得不那么神秘
0 day漏洞vs 老漏洞，供应链漏洞（买了第三方软硬件被攻击进来了），最大的是人的漏洞
自然语言编程缺陷：自然语言无法做到精准描述
英伟达，B200（2024.3）, 一个行业为英伟达打工，为电厂打工，真的健康吗？
低成本低功耗高性能的推理芯片（比如之前发展的挖矿芯片）vs全能芯片（能训练，推理，游戏加速）
推理芯片 赛道，不用训练，压低成本
老黄（Jensen Huang），扁平化管理，信心传递最高效
好的战略是阳谋不是阴谋，可以广而告之的
管一层（被蒙蔽）看一层（向下多看一层）
聪明的人期望很高，要有有韧性的聪明，愈挫愈勇才能走得远
葵花宝典——欲练此功，必先自宫——放弃360软件付费，免费，靠广告赚钱
吸心大法——学习吸收别人的优点
蛋白是3D折叠结构，不仅仅是序列，alpha go 加速度了新蛋白的发现，十年一个 to 一下子几千个，做药的时候，候选新蛋白也变多了，更多尝试
大模型落地，to B or to E（企业） or to G（政府）比 to C 好做，避开通用大模型竞争，企业级对数据比较敏感，在某一个专用领域的大模型，
第一条，大算力，通用大模型
第二条路线，企业级，产业化，垂直化，场景化专用模型
智雷地雷（视觉，听觉），无人机+地雷
头脑体操，亲自做产品时间有限，发觉生活中各类产品的不足，
产品经理-小白模式，傻瓜模式，用户视角体验产品，发现不足，然后用专家模式改进产品
周鸿祎 2024 年大模型发展十大趋势判断
1. 大模型无处不在，成为数字系统标配
2. 开源大模型爆发
3. 小模型涌现，运行在更多终端
4. 大模型企业级市场崛起，向产业化、垂直化方向发展
5. Agent智能体激发大模型潜能，成为超级生产力工具
6. 2024是大模型应用场景之年，ToC出现杀手级应用
7. 多模态成为大模型标配
8. 文生图、文生视频等 AIGC 功能突破性增长
9. 具身智能赋能人行机器人产业蓬勃发展
  10.大模型推动基础科学取得突破
2024.04.09 趋势预测
1. 开源模型爆发，大模型未来无处不在
2. 未来大国间AGI竞争的关键是“云端超级大模型”，规模越做越大
3. 大模型同时越做越小，搭载于智能终端
4. 企业级大模型市场崛起，企业会同时拥有多个垂直大模型
5. 多模态成为大模型的关键能力
6. 文生图，文生视频等AIGC功能突破性增长
7. ToC继续涌现杀手级应用
8. 知识工程成为大模型落地的决定性要素
9. AI Agent 激发大模型潜能成为超级生产力工具
10. 人形机器人产业发展获得十倍加速
11. 大模型认知能力不断提升，自动驾驶迎来革命性变化
12. 大模型帮主生物科学等基础学科研究突破瓶颈
13. AI 安全变得前所未有重要
14. 芯片性能每年翻10倍，6年将提升100万倍，算力规模每半年翻1倍
15. 能源成为AI甚至人类文明发展瓶颈，唯一破解方法是解决可控核聚变
16. 大模型和硬件结合会带来新产业革命
agent
chatGPT 的训练过程
大模型生态，落地场景
人的大脑，25-30w，机房放在太空，太阳能
以模制模，另外的大模型来判断大模型有没有输出错误的结果
信息不等于知识，知识不等于智慧——training data，需要的是知识不是信息
训练素材，矛盾的
不同时代，不同人，同一个人不同时期的观点都不一样
低空经济
一个对象不适合扮演太多角色——通用大模型
大脑模型+小脑模型+反射弧
think different
科技平权
Megatron / Deepspeed 等常见大模型训练框架，LLaVA，QWEN-VL等多模态大模型
不是大鱼吃小鱼，是快鱼吃慢鱼
聊天机器人——搜索增强，知识对齐
diffusion，找矿脉，分布在流形结构上
路由大模型，用于集成多个大模型，术业有专攻
提示词注入攻击
用进废退，不思考，不写作输出，以为自己思考，渐渐丧失思考的能力
不用AI的人会被用AI的人淘汰
OpenAI提出了一套评级来定义AI的进展
- L1：Chatbots，具备对话能力，比如ChatGPT。
- L2：Reasoners，人类级问题解决能力，OpenAI已接近。
- L3：Agents，可以代表用户采取行动。
- L4：Innovators，AI可以辅助发明创造。
- L5：Organizations，AI可以像一个管理者那样完成工作。
消耗所有资源干这一件事
TeleAI，在这次特斯拉的活动中——2024，马斯克谈到了 Optimus 机器人，但并没有提及这些机器人是否完全自主。
以模制模，专业的安全大模型
震网病毒
AI for science，成为科学研究的工具
缺芯少魂，沙滩上建高楼，建立的越高越危险
“AI first”（人工智能优先）是一种理念和策略。

从产品和技术开发角度讲，它意味着在设计和构建系统、软件、服务等诸多事务时，首先考虑融入人工智能技术来优化流程、提升性能或者创造新的功能。比如一些智能客服系统，以“AI first”理念构建，利用自然语言处理的AI技术优先处理客户咨询，快速给出解答，而不是先考虑人工客服介入。

从商业战略方面看，企业秉持“AI first”会将自身业务和人工智能紧密结合，可能会优先投资AI相关的研发，利用AI来驱动业务增长、获取竞争优势，像一些电商公司利用AI进行精准营销和库存管理等。
一文读懂GPT家族和BERT的底层区别——自回归和自编码语言模型详解
自回归（Autoregressive，简称AR）语言建模和自编码（Autoencoder，简称AE）
Transformer encoder是一个AE模型，Transformer decoder则是一个AR模型。

蓝色自编码
红色自回归
灰色 seq-to-seq
AR模型，代表作GPT，从左往右学习的模型。AR模型从一系列time steps中学习，并将上一步的结果作为回归模型的输入，以预测下一个time step的值。AR模型通常用于生成式任务，在长文本的生成能力很强，比如自然语言生成（NLG）领域的任务：摘要、翻译或抽象问答。
AE模型，代表作BERT，它不会进行精确的估计，但却具有从被mask的输入中，重建原始数据的能力，即 fill in the blanks（填空）。AE模型通常用于内容理解任务，比如自然语言理解（NLU）中的分类任务：情感分析、提取式问答
大模型AGI之战，安全之战，应用之战
大模型是能力，不是产品