数据驱动
数据与规则
数据驱动,其根本在数据。一切一切的前提在于数据一定是要真实的,虚假的数据就算再能拟合某个算法或者模型,总归还是一句梦呓。
不能转化为规律数据是驳杂的,毫无意义的。但是如果没有数据作支撑,任何所谓的模型、算法、规则都是无水之源。2个点可以拟合无数种函数,而20万个点可能只有几只函数可以拟合,甚至无法拟合。
但是这个过程是令人振奋的:随着可靠数据的增加,可以拟合的函数一条一条的减少,甚至于出现了一条从未被人发现的,可以解析的曲线。这就如同发现了一条新航路的船长,新航路将带来无数的丝绸香料。直到这条航路不再适合下一代的船舶航行。
规则=模型==》知识
- 人的知识来源于对规律的总结,即简单的函数拟合。
- 一代又一代的人们通过研究数据总结出了一个又一个的模型,尝试观测并描述这个世界。
- 人的计算能力与接收能力限制了拟合上限,而计算机的出现一定程度上缓解了人类的缺陷,同时云概念的提出,使规则自行演化成为了可能。
- 对于一个未知的现象,直接写出一个完美的模型几乎是不可能的;既然规则可以演化,那么我们姑且写一个粗糙的模型,然后投以大量的可靠数据(最好符合特征),让其不断精确参数,逼近最终的结果。
这个方法实际上是用大量的数据计算来减少研究时间,让我们快速的获取参数
展望与梦呓
现在大部分论文里,数据驱动只是用大量的数据来获取某个模型下相对精确的参数。
或许未来,我们可以用这些数据来优化这个模型,甚至归纳出我们不曾发现的新的模型?