1、数据与信息是有别的,明白数据与信息的关系是进行数据管理、展现和挖掘的第一步:
数据的价值必须通过信息来展现,信息才是真正有价值的东西;
单条数据的信息量是有限的,信息量与数据量成指数级增长;
数据所蕴含的信息量非常大,但要获取这些信息却并不是很容易的;
相同的数据所包含的信息量理论上是一样的,但能获取到的,真正有价值的却总是有限的,这也是数据挖掘的价值所在;
良好的数据组织,展现和管理形式,对高效获取信息有非常大的帮助,这也是数据结构设计好坏的一个评价点;
我们的目的是获取信息,但信息是蕴含在数据里的,有的很明显,但大多数却很难识别,需要我们去挖掘,这也是我们这些从业人的价值;
没有不好的数据,只有不识货的人;
数据的结构化是进行数据信息挖掘的一种有效手段;
非结构化数据的信息获取只适合于人,但不适合机器;
要比较容易获去数据的信息,结构化是必须的,其实对于人来说也是一样;
NoSQL并不是不需要数据结构化,而是只需要结构化到某种程度,或者是以另外一种方式来结构化(比如MapReduce);
关系数据库的核心不是表方式存储数据,而是后面依赖的数学模型(函数,关系)和矩阵计算;
.....