数据、信息、知识《智能时代--大数据和智能革命重新定义未来》

上一篇博客已经讲了什么是数据,人们常常将数据和信息混同起来,那么信息是什么?信息是关于世界、人和事的描述,它比数据来的抽象。信息既可以是我们人类创造的,如通话记录,也可以是天然存在的客观事实,如地球质量。但信息有时候隐藏在事物的背后,需要挖掘和测量才能看到。

        那么数据和信息有什么不同?数据最大的作用是承载信息,但不是所有的数据都承载了有用的信息。数据是人造物,所以不一定真实,没有信息的数据也没有太多的意义。其次,有用的数据和无用的数据通常是混在一起的,所以我们需要处理数据,滤掉没有用的噪声和删除有害的数据。善用数据,才能发现数据背后的信息。

       数据+信息》知识。对数据和信息进行处理后,就可以获得知识。知识具有抽象性、系统性的特征。比如,通过测量星球位置和对应的时间,就能得到数据;通过这些数据就能得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。

        早起人类得到的数据很大程度上来源于对现象的观察,从观察中总结数据。但在过去,数据的作用往往被忽视,原因有1、过去数据量不足,积累大量的数据需要的时间太长,以至于在短时间内作用不明显。2、数据和想获得的信息之间的联系是间接的,它要通过不同数据之间的相关性才能体现出。

        所以,数据的相关性是很重要的。很多时候,我们无法直接获得信息(比如疫情传播情况),但我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接的得到所要的信息。

 

上图是用户在不同时间点对某个电视节目的搜索量

帕特尔问为什么会出现四个高峰,作者说因为美国跨了四个时区,节目播出各差一个小时,他说,其实通过它以及各个时区的人口,可以了解到不同电视节目在不同时区的收视率。帕特尔将搜索量和收视率联系起来了。后来他的成果被开发为Google的一款产品:Google趋势。如果仅仅看搜索趋势的变化,没多大意思,但如果把搜索和其他事情关联起来,就能发现很重要的信息,这其中就要通过数学模型。而各种数学模型都离不开概率论和统计学。

        统计学中数据采集上有两个要点:量和质。想获得准确的统计结果,数据量需要充足,需要多少统计量才是准确的,就需要定量分析。其次,采样的数据要具有代表性。有时候,不是数据量大,统计结果就准确。统计的数据必须和我们想统计的目标相一致。

        在大多数的复杂应用中,需要通过数据建立一个数学模型,以便在实际应用中使用。首先采用什么样的模型,其次,模型的参数是多少,即机器学习。只要数据量足够,就可以用若干个简单的模型取代上一个复杂的模型。这种方法称为数据驱动方法。因为它是首先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。这种找到的模型与真实的会有一定的偏差,但误差允许的范围内,从结果上看是等效的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值