AI大模型简述-CSDN博客

本文链接：https://blog.csdn.net/kl1411/article/details/140888893

大模型是指拥有超过10亿个参数的深度神经网络，它们能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。同时，大模型的设计和训练也需要更多的计算资源和存储空间，以及更高的技术要求。

大语言模型（Large Language Model）：通常是具有大规模参数和计算能力的自然语言处理模型，例如 OpenAI 的 GPT-4 模型。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT 和ChatGPT都是基于Transformer架构的语言模型，但它们在设计和应用上存在区别：GPT模型旨在生成自然语言文本并处理各种自然语言处理任务，如文本生成、翻译、摘要等。

ChatGPT则专注于对话和交互式对话。它经过特定的训练，以更好地处理多轮对话和上下文理解。ChatGPT设计用于提供流畅、连贯和有趣的对话体验，以响应用户的输入并生成合适的回复。

· 语言大模型（NLP）：是指在自然语言处理（Natural Language Processing，NLP）领域中的一类大模型，通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则。例如：GPT系列（OpenAI）、Bard（Google）、文心一言（百度）。

· 视觉大模型（CV）：是指在计算机视觉（Computer Vision，CV）领域中使用的大模型，通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如：VIT系列（Google）、文心UFO、华为盘古CV、INTERN（商汤）。

· 多模态大模型：是指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力，以实现对多模态信息的综合理解和分析，从而能够更全面地理解和处理复杂的数据。例如：DingoDB多模向量数据库（九章云极DataCanvas）、DALL-E(OpenAI)、悟空画画（华为）、midjourney。

百度-文心一言：关键词提炼较差，多轮对话表现不错

阿里-通义千问：关键词提炼准确，多轮对话表现不错

科大讯飞-星火认知大模型：关键词提炼准确，多轮对话表现不足

腾讯-混元大模型：关键词提炼较差，多轮对话表现不足

文心一言多轮对话表现优秀，具有灵活性图片生成能力，但需要提高关键词提炼准确性。

通义千问在文言文理解和关键词提炼方面表现出色，但视频脚本生成能力有待提升。

讯飞星火认知大模型支持终端种类最多，图片生成方式较灵活，但多轮对话能力有待增强。腾讯混元助手在知识问答和小说撰写表现良好，但仍需提高多轮对话、语义理解能力，并增加图片描述功能。

华为盘古AI大模型包括了NLP大模型、CV大模型、科学计算大模型等多个AI大模型在内的合集，使其可以被应用到科学研究、教育、交通、工业等多个行业中。

LLaMA 2是由互联网巨头Meta开发的AI模型。即使在参数量较低的情况下，其依然能够表现出不错的性能，使得其在小型及移动设备上的本地化部署更有优势。

智谱清言ChatGLM，GLM全称”General Language Model“ 来源自清华的一篇论文——基于自回归空白填充目标的通用预训练框架，作为国产第一梯队的自研模型，这也是后续智谱AI发布的所有AI应用的底座。ChatGLM-6B，虽然参数有限，但效果还是很不错的。GLM-4，则是以超千亿参数的规模，和ChatGLM-3等前代产品拉开了巨大差距。

商汤日日新大模型。生成式数字人。中文语言大模型应用平台，商汤将其命名为“商量”。