数据、信息、知识《智能时代--大数据和智能革命重新定义未来》

最新推荐文章于 2019-12-09 06:23:43 发布

hello~bye~

最新推荐文章于 2019-12-09 06:23:43 发布

阅读量931

点赞数

分类专栏：人工智能文章标签：数据信息知识

本文链接：https://blog.csdn.net/qq_36654309/article/details/83446171

版权

人工智能专栏收录该内容

66 篇文章 2 订阅

订阅专栏

上一篇博客已经讲了什么是数据，人们常常将数据和信息混同起来，那么信息是什么？信息是关于世界、人和事的描述，它比数据来的抽象。信息既可以是我们人类创造的，如通话记录，也可以是天然存在的客观事实，如地球质量。但信息有时候隐藏在事物的背后，需要挖掘和测量才能看到。

那么数据和信息有什么不同？数据最大的作用是承载信息，但不是所有的数据都承载了有用的信息。数据是人造物，所以不一定真实，没有信息的数据也没有太多的意义。其次，有用的数据和无用的数据通常是混在一起的，所以我们需要处理数据，滤掉没有用的噪声和删除有害的数据。善用数据，才能发现数据背后的信息。

数据+信息》知识。对数据和信息进行处理后，就可以获得知识。知识具有抽象性、系统性的特征。比如，通过测量星球位置和对应的时间，就能得到数据；通过这些数据就能得到星球运动的轨迹，就是信息；通过信息总结出开普勒三定律，就是知识。

早起人类得到的数据很大程度上来源于对现象的观察，从观察中总结数据。但在过去，数据的作用往往被忽视，原因有1、过去数据量不足，积累大量的数据需要的时间太长，以至于在短时间内作用不明显。2、数据和想获得的信息之间的联系是间接的，它要通过不同数据之间的相关性才能体现出。

所以，数据的相关性是很重要的。很多时候，我们无法直接获得信息（比如疫情传播情况），但我们可以将相关联的信息（比如各地搜索情况）量化，然后通过数学模型，间接的得到所要的信息。

上图是用户在不同时间点对某个电视节目的搜索量

帕特尔问为什么会出现四个高峰，作者说因为美国跨了四个时区，节目播出各差一个小时，他说，其实通过它以及各个时区的人口，可以了解到不同电视节目在不同时区的收视率。帕特尔将搜索量和收视率联系起来了。后来他的成果被开发为Google的一款产品：Google趋势。如果仅仅看搜索趋势的变化，没多大意思，但如果把搜索和其他事情关联起来，就能发现很重要的信息，这其中就要通过数学模型。而各种数学模型都离不开概率论和统计学。

统计学中数据采集上有两个要点：量和质。想获得准确的统计结果，数据量需要充足，需要多少统计量才是准确的，就需要定量分析。其次，采样的数据要具有代表性。有时候，不是数据量大，统计结果就准确。统计的数据必须和我们想统计的目标相一致。

在大多数的复杂应用中，需要通过数据建立一个数学模型，以便在实际应用中使用。首先采用什么样的模型，其次，模型的参数是多少，即机器学习。只要数据量足够，就可以用若干个简单的模型取代上一个复杂的模型。这种方法称为数据驱动方法。因为它是首先有大量的数据，而不是预设的模型，然后用很多简单的模型去契合数据。这种找到的模型与真实的会有一定的偏差，但误差允许的范围内，从结果上看是等效的。