我们通常通过逻辑推理得到结果,先有原因,再有结果,如果没有原因,我们往往觉得不可信。比如青霉素的和其他的抗生素发明过程中,人们不断分析原因,然后寻找答案(结果),但时间可能会特别久,不是患者可以等待的。有大数据以后,如果将每一种药和每一种病匹配,就会有意外的惊喜,比如治疗心脏的药物对心脏特别好。这样找到治疗胃病的药物只要三年,这种方法依靠的是强关联关系。然后再反过来找为什么有效。
在大数据时代,我们能够得益于一种新的思维方法,从大量的数据中直接找到答案,虽然不知道原因,如果能够接受,那我们的思维就跳出了机械时代单纯追求因果,开始有大数据思维了。
Google05年之前一直不断使用数据来提高搜索质量,但主要工作方法是遵循因果关系,但是搜索质量提升速度太慢了,根据数据的积累,大家发现,搜索质量和很多的数据特征有很强的相关性,利用这些特性可以迅速提升搜索结果的质量。在所有的数据中,与搜索质量相关性最高的是大量的点击数据,即对于不同的搜索关键词,用户都点击了哪些搜索结果(网页)。要么改进搜索排序结果,要么相信用户的点击结果。度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”,点击模型现在在搜索排序中至少占70%-80%的权重。当然,点击模型的准确性取决于数据量的大小。