因近两年在aigc、llm等热潮带动下的AI技术快速发展,最近越来越觉得在这一技术领域中的人们对整体AI技术栈所涉及的包括对模型结构的洞察和尝试(如经典transformer和Mamba、TTT等)、对模型背后底层数学计算与变换方法的理论探索和运用(如传统的MLP和近期的KAN及其它KAN的变种等)、对跨模态任务建模与训练范式的创新与组合(如从chatGPT自回归AR下的pre training/sft/rlhf..到sora下的DDPM/VQ-VAE-2/ViT/DiT等),对信息/数据的分布、对认知过程与行为现象的理论阐释等,可能真的只是冰山中一角中的一角,而这一角是否也会让我们在攀登AI这座大厦过程中不可避免的陷入某种过拟合的局部当中,而当在探索(训练)中努力降低方差尝试跳出这一角的过程中也许会面临更大的挑战等待着我们..
如:我们人类大脑内部信号的网络传播轨迹整体上是正向的吗?这里的方向本质上意味什么?
MLP相比于KAN难道就更连接主义吗?相反KAN相比于MLP就更符号化吗?KAN难道不是一种MLP么?符号主义的所谓精确计算与连接主义的逼近模拟计算两者间从计算本质和数学本质上未来是否可以统一?
一味的追求scaling law在更广的尺度中是要持续遵循的吗?
整体AI背后的数学理论到底是怎样的?其中的模型结构,背后的数学变换,真实世界数据的分布、所谓的泛化、推理、表征等这些要素背后的本质联系是什么?…
就像人们常说的:“人类大脑的开发程度通常被认为不足10%”,大伙觉得人类对AI的开发程度是多少呢?
如:即使是LM这种天然的序列结构,为何要受限于当前LLM的自回归(AR)下的next token predict呢?diffusion下的token generation不香么?
尤其是在未来尝试e2e的system②·慢思考好比在进行像我们人类的某种思维框架下的头脑风暴🤯的推理过程中的那样,难道是因为在这个所处的真实世界中所呈现的数据模态与结构的不同?或者所面对不同推理任务(包括认知模式,运行机制,物理规律,甚至隐式的类MCTS探索式决策模式..)的流形表征的差异影响并约束了其模型本身的结构及对应所采用底层不同的数学变换与方法?
其实还有很多其它的问题思考延展,这里卖个关子,感兴趣的读者可以继续关注后续文章和笔记感想,或访问置顶🔝文章回顾了解更多~:)