1战略布局
时间 | 发布单位 | 政策名称 | 主要内容 |
2023年 7月 | 国家发改委、教育部、科技部、工信部、公安部、国家广电总局 | <<生成式人工智能服务管理暂行法>> | 首次明确了生成式人工智能“提供者”内容生产、 数据保护、隐私安全等方面的法定责任及法律依据,确立了人工智能产品的安全评估规定及管理办法。 |
2023年 7月 | 工信部、财政部 | <<电子信息制造业2023-2024年稳增长行动方案>> | 鼓励加大数据基础设施和人工智能基础设施建设,满足人工智能、大模型应用需求。 |
2023年 10月 | 工信部 | 《人形机器人创新发展指导意见》 | 到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给开发基于人工智能大模型的人形机器人“大脑”。 |
2023年 10月 | 国家网信办 | 《全球人工智能治理倡议》 | 旨在为人工智能的全球治理提供中国方案,推动形成具有广泛共识的全球人工智能治理框架和标准规范,以促进人工智能技术的健康发展和国际社会的共同利益。 |
2023年 12月 | 工信部等10部门 | 《关于加快推进视听电子产业高质量发展的指导意见》 | 支持骨干企业做大做强,支持人工智能企业研发视听应用大模型。 |
2国内外现状
各区域都需要本地化样本、模型重新训练、周期长 大模型适用多区域多场景多任务,效率高、成本低。
3研究进展——数据:从单模态向多模态发展
多模态数据集 | 发布时间 | 数据类型 | 数据量 | 描述 |
MillionAID | 2021 | Google Earth影像 | 百万张实例 | 一个用于遥感场景分类的大型基准数据集 ,包含了广泛的语义类别, |
Satlas | 2022 | 中分辨率Sentinel-2影像、高分辨率NAIP影像 | 2.9亿个标签 | 具有空间分辨率高、规模大、分布全球等优势。 |
RSICap | 2023 | 遥感图像 、文本描述数据 | 2585个高质量字幕 | 覆盖场景广,数据规模大。 |
RSIEval | 2023 | 人工注释的字幕-视觉问答对, | 31.8万个图像指令对 | 用于遥感图像精细描述的数据集,包括图像场景描述(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)。 |
SpaceNet | 2018 | WorldView-2、3等光学影像 | 1500万张影像 | 图像-问答三元组,可以全面评估VLMs在遥感环境下的性能。 |
SkyScript | 2023 | 遥感图像-文本描述数据 | 260万张图像文本对 | 全球第一个公开发布的高分辨率大型遥感数据集,用于目标检测、语义分割和道路网络映射等任务 |
fMow | 2018 | 多种传感器的时间序列 像 、 多 光 谱 影 像 | 70万张影像 | 一个用于遥感的大型具语义多样化的图像文本数据集,通过GEE和OpenStreetMap获取,全球覆盖,语义信息跨越对象类别、子类别和详细属性。 |
SkySense | 2024 | 高分辨率WorldView-3、4影像,中分辨率Sentinel-1、2影像 | 2150万个训练样本 | 一个用于多种遥感任务的大型数据集,旨在激发机器学习模型的开发,使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用。 |
BigEarthNet-MM | 2021 | Sentinel SAR和多光谱数据 | 59万个多模态样本 | 涵盖了不同分辨率、光谱和成像机制的各种情景,每个样本包括具有纹理细节的静态HSROI,包含时态和多光谱数据的TMsl,在云覆盖下提供散射极化的标准校准TSARI,以及用于地理上下文建模的元数据。 |
SEN12Ms | 2019 | Sentinel-1、2, MODIS传感器的SAR和多光谱数据 | 18万个多模态样本 | 支持多模态多标签遥感图像检索和分类研究 |
RingMo | 2023 | Sentinel-1、2、Google Earth 2023、WorldView、高分二号等多种光学遥感影像 | 200万张影像 | 由全球42个城市群的数据组成,能够应用于最先进的机器学习方法,以应对城市化和气候变化的全球挑战。数量众多、分辨率变化范围大,更适合遥感领域下游任务. |
4研究进展--模型:从基础模型向行业大模型发展
名称 | 时间 | 机构 | 技术特点 |
水利大模型 -SkyLIM | 2024 | 中国水科院 | 面向水利水电行业需求,采用“1+2+N”架构,以海量专业知识库为引擎,以机理模型与人工智能模型为双基座,与水利水电业务场景深度融合,具有多模态大参数算子、大规模高性能算力、大场景全过程模拟特征,服务水利高质量发展标准化、体系化的水利水电行业大模型。技术特点环 首个环保行业大模型。 |
生态环境大模型-天融 | 2024 | 天融环境 | 基于盘古大模型研发的全国生态环境领域首个环保行业大模型,为生态文明建设积极提供数字化解决方案,推动生态环境智慧治理、推进绿色智慧的数字生态文明建设,实现人工智能助力数智环保高质量发展。 |
海洋大模型-OceanGPT | 2024 | 浙江大学 | 提出了首个海洋领域大语言模型OceanGPT,该模型擅长处理各种海洋科学任务,可以根据海洋学家的指令回答问题。 |
气象大模型- Prithvi WxC | 2024 | NASA | 用于天气和气候的新型通用AI模型,该模型具有23亿参数,使用MERRA-2数据集的160个变量开发而成。 |
交通大模型- TransGPT | 2024 | 北京交通大学 | 致力于在真实交通场景中发挥实际价值,包括交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等能力。 |
农 业 知 识 大 模型 | 2024 | 中国农业科学院 | 面向农业科技创新、农业生产服务、农业知识科普、辅助农业决策等多领域应用场景,打造具备NLP、CV、多模态等能力的农业知识增强大模型。 |
林 业 大 模 型 | 2023 | 恩博科技 | 基于百亿级高质量林业数据(其中林草场景烟火样本量70亿+;动植物样本10亿+;其他场景样本20亿+),得到业内领先的计算结果。 |
5主流大模型
GPT3.5 ,在1万个V100 GPU 上训练,拥有1750 亿个参数,推理成本为1750亿的Davinchi.
GPT4,在2.5万个A100 GPU上训练,拥有1.8万 亿个参数,推理成本为5250亿的Davinchi.
文心大模型,在我国首个国产自主E级 AI 算力平台鹏城云脑 Ⅱ上训练,拥有2600 亿个参数。LLaMa,在2048个A100 GPU上训练,拥有650 亿个参数。
6国内外现状
微软 | 谷歌 | Meta | 百度 | 腾讯 | 阿 里 | 华 为 | 商 汤 | 科大讯飞 | |
框架 | 主要为 PyTorch | TensorFlow/ Pathways | Pytorch | Paddle | 太极平台 | S 4 框 架 | ModelArts | OpenMMLab | X-Reasoner |
模型 | GPT-4 | Transformer ViT | LLaMa | 文心大模型 (NLP+CV | 混元大模型 (NLP+CV+ | 通义大模型 | 盘 古 大 模 型 ( 计 算 模 型 + 气 象 模 | Sense Core商汤A I大 | 基础大模型(NLP+CV+多模态)行业大模型 |
应用 | 办公软件、安 | 地图、视频 | 视频软件、 音频软件 | 开发平台、 搜索系统、 作画平台 | 游戏、搜索、 | 作画平台、 | 语音分析、舆情 | 自 动 驾 驶 、 智 慧 城 市 | 智慧教育、 |