极模型应是从如奇点爆炸开始拟合到当下,这模型于是可称之为大模型,万物之模型。
从马车到汽车到火车再到火箭,距离从百里至百万里,从打字机到bb机到触屏手机,无不大改模式虽不离其宗。
那么模型可也是变幻多种,历史如下:
- 最早的前馈神经网络(1960s)
简单的线性映射模型,代表工作是感知机。由于训练难度限制,未被广泛应用
- 多层前馈神经网络(1970s-1980s)
增加隐藏层,具有拟合复杂函数的能力,但训练困难。
- 卷积神经网络CNN(1980s)
LeNet等工作突破了图像识别领域,采用卷积结构提取空间信息。
- 递归神经网络RNN(1980s)
循环结构用于处理序列数据,但训练难度大。
- 深度信念网络DBN(2006)
贪心层层训练的方法解决多层神经网络的梯度消失和爆炸问题。
- 生成式对抗网络GAN(2014)
生成模型和判别模型的对抗设计产生真实数据分布。
- Residual Network (2015)
残差连接提高网络训练效率,成功训练超深网络。
- Transformer(2017)
自注意力机制处理序列数据,被广泛用于NLP任务。
- 大模型(2020s)
如何让他自成长,应是自循环的球形,而非现在的映射、线性等 ,但仅提供数据即可达到不错的效果的现象大大削弱了从业者对其变革的动力,能力应该是泛化而来而非“拟合而来”,人的思考囊括多重感知的集合:五官+ 肌肉记忆,模型也应如此,让其通过多重感知举一反三,便能达到从经验中总结真理,当务之急应解决的是如何模拟人类的感知集合避免大模型开启反馈成长模式的脏数据积累。人类被解构的历史由器官到组织到细胞等,大脑的结构亟需生物科研人员解决,从而得出大脑的更清晰的结构,路还很长。