原文:Wu J, Gan W, Chen Z, et al. Ai-generated content (aigc): A survey[J]. arXiv preprint arXiv:2304.06632, 2023.
学习摘抄来自:最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
“1 The Road” 第一本由人工智能写的小说
1 相关概念
1.1 What is AI-generated content?
文本生成
图片生成
音频生成
视频生成
1.2 Necessary conditions of AIGC
1.3 How can AI make the content better?
【数字孪生】是一个融合了物理实体与虚拟模型的技术概念,旨在通过集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成物理实体的映射,从而反映其全生命周期过程。以下是关于数字孪生的详细解释:
一、定义:
数字孪生充分利用物理模型、传感器更新、运行历史等数据,在虚拟空间中创建实体装备的数字映射系统。
它被视为一个或多个重要的、彼此依赖的装备系统的数字映射系统,是一个普遍适应的理论技术体系。
二、技术原理:
数字孪生技术包括数据采集、数据处理、数据建模等多个环节。
首先采集实际系统的各种数据信息,并经过处理后建立相应的数学模型。
然后将数学模型与实际系统进行同步更新,并通过计算机程序对其进行虚拟仿真分析。
最后根据虚拟仿真结果优化设计方案或者调整实际系统参数。
三、应用领域:
数字孪生可以在多个领域应用,包括产品设计、产品制造、医学分析、工程建设、智能制造、物流和供应链管理、城市规划、医疗保健、能源管理等。
在国内,工程建设领域应用最为深入,而智能制造领域则是最受关注和研究的热点。
四、关键技术:
数字孪生的关键特征是利用传感器、云计算、边缘计算和人工智能等先进物联网技术。
实体双胞胎(物理实体)与虚拟单元(虚拟模型)进行交互融合,实现物理实体与虚拟机的信息交互。
五、发展趋势:
随着人工智能技术和大数据技术的不断发展,数字孪生将会在未来得到更广泛的应用。
数字孪生将在智能制造领域发挥重要作用,通过数字化的生产过程和智能化的设备管理,实现生产过程的优化和智能化。
数字孪生还将实现跨行业的信息共享和智能化管理,如交通运输、能源领域等。
数据安全和隐私保护将成为重要问题,相关技术和法律法规也将逐步完善。
六、实际案例:
大型制造企业如通用电气、西门子等已经开始在数字孪生领域进行实践和探索,实现了生产过程的智能化管理,提高了生产效率和产品质量。
总之,数字孪生是一个融合了物理与虚拟、现实与仿真的先进技术体系,其在多个领域具有广泛的应用前景和发展潜力。
【智能编辑】
AIGC通过智能语义理解和属性控制实现虚拟与现实之间的交互
1.4 The industrial chain of AIGC
1.5 Advantages of large-scale pre-trained models
1.6 Generation of smart text
人工智能辅助写作(AIAW)
人工智能生成的写作(AIGW)
1.7 Pros of AIGC
SEO (Search Engine Optimization) 是搜索引擎优化的缩写,是一种提高网站在搜索引擎自然搜索结果中排名的技术和策略。SEO 的主要目的是增加网站的可见性,吸引更多的潜在用户访问网站,并最终提高网站的转化率。
1.8 Cons of AIGC
1.9 AIGC and Metaverse
AIGC可以完善 Metaverse(元宇宙)的个性化服务,使其更加生动和重要
2 挑战
数据、硬件、算法、隐私保护问题、通用AIGC的NLP、人类对AIGC的态度、受信任的AIGC
我们需要确保NLP模型输出结果的可信度,同时还要考虑安全、价值观、伦理、政治、隐私和道德等问题。
NLU,即自然语言理解(Natural Language Understanding),是人工智能领域中的一个重要研究方向。它旨在使计算机系统能够理解和解释人类以自然语言形式表达的信息,包括文本和语音。
ICL(In-Context Learning)上下文学习是一种基于少量标注样本的学习方法,它依赖于上下文信息和任务相关的指令来引导模型进行预测,适用于数据稀缺的情况,并在少样本学习中表现出色。
3 潜在方向
跨模态生成技术、搜索引擎、媒体、电子商务、电影
附录A——多模态视觉-语言大模型的架构演进
BLIP
Li J, Li D, Xiong C, et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//International conference on machine learning. PMLR, 2022: 12888-12900.
补充:ICML是机器学习领域的一个顶级国际会议,而PMLR则是收录这些会议高质量论文的论文集。两者在机器学习领域都扮演着重要的角色,但它们的性质和功能有所不同。ICML为学者和研究人员提供了展示和交流研究成果的平台,而PMLR则作为这些研究成果的重要载体,为整个领域的发展做出了贡献。
BLIP-2
Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C]//International conference on machine learning. PMLR, 2023: 19730-19742.
LLaVA
Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processing systems, 2024, 36.
MiniGPT-4
Zhu D, Chen J, Shen X, et al. Minigpt-4: Enhancing vision-language understanding with advanced large language models[J]. arXiv preprint arXiv:2304.10592, 2023.
InstructBLIP
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
https://arxiv.org/abs/2305.06500
Qwen-VL
Bai J, Bai S, Yang S, et al. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond[J]. 2023.
InternLM-XComposer
Zhang P, Wang X D B, Cao Y, et al. Internlm-xcomposer: A vision-language large model for advanced text-image comprehension and composition[J]. arXiv preprint arXiv:2309.15112, 2023.
Fuyu-8B
https://huggingface.co/adept/fuyu-8b
LLaVA-1.5
Liu H, Li C, Li Y, et al. Improved baselines with visual instruction tuning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 26296-26306.
CogVLM
Wang W, Lv Q, Yu W, et al. Cogvlm: Visual expert for pretrained language models[J]. arXiv preprint arXiv:2311.03079, 2023.
CogAgent
Hong W, Wang W, Lv Q, et al. Cogagent: A visual language model for gui agents[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 14281-14290.
VILA
Lin J, Yin H, Ping W, et al. Vila: On pre-training for visual language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 26689-26699.
LLaVA-Next
https://llava-vl.github.io/blog/2024-01-30-llava-next/
InternLM-XComposer2
Dong X, Zhang P, Zang Y, et al. Internlm-xcomposer2: Mastering free-form text-image composition and comprehension in vision-language large model[J]. arXiv preprint arXiv:2401.16420, 2024.
InternLM-XComposer2-4KHD
Dong X, Zhang P, Zang Y, et al. Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd[J]. arXiv preprint arXiv:2404.06512, 2024.
Mini-Gemini
Li Y, Zhang Y, Wang C, et al. Mini-gemini: Mining the potential of multi-modality vision language models[J]. arXiv preprint arXiv:2403.18814, 2024.