近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI)的推出,谷歌依然没有推出能打的竞品都没有,甚至是后来居上的LlaMA(Meta)类的Google也败下阵来,也许是Google倾尽资源在Gemini上了。
Gemini是谷歌大脑和DeepMind和ChatGPT竞争的多模态( Visual-Language-Action (VLA) )大语言模型,其是将CPT-4和AlphaGo类系统相结合的新的多模态大语言模型。
据传Gemini是将融合多模态Encoder-Decoder的新架构,Encdoer部分对不同的数据提出供Decoder理解的特征,Decoder的任务是理解和执行。
目前的大模型是不具备规划能力,需要用知识图谱等符号主义的方法来增强,也许 Google DeepMind 找到的方法是行为主义【强化学习】的方法,而非符号主义【知识图谱】的方法。
要在人工智能中真正实现 AGI ,这中间最关键的环节是让机器能够自主地从物理世界中学习,这就要求 AGI 具备连续的视觉理解能力。当前的ChatGPT离真正的AGI还欠缺以下能力:
1.感知世界的能力:这个基础是连续视觉