数据、信息、知识:
当数据被赋予某种属性时,他就成了信息。为数据赋予了意义与实用性。在加上专业经验,数据与信息就可以转换成知识。
例如:79摄氏度显然只是一个温度计读数,这就是数据。如果给这个读数增加一些细节,例如这个温度是孟买印度门2015年3月3日下午5点30分的温度,那它就是信息了。根据多个年份某一周的每小时温度读数,预测下一年同一周的温度就是知识。
先从实验室中收集数据,再从数据中提取知识,最后对信息进行细致的分析,从中获取知识。
数据存储软件与工具箱:
(1)
文件
结构化文件:按照预先设定好的固定格式存储数据。如:CSV文件
非结构化文件:数据存储没有预先设定的格式。如:网络服务日志文件、图书、期刊和电子邮件。
半结构化文件:通过标签或其他标记区分字段,为标签赋予适当含义,从而创建记录或字段。如:XML和JSON格式。
(2)
数据库
基于模式的数据库:需要用户在存储数据前先创建数据对象的结构。如:MySQL、Oracle等。
无模式的数据库:如:MongoDB。
数据生成:
(1)人工收集
(2)仪器收集
(3)通过计算机模拟(对于一些特定的应用)
大规模数据集的简要介绍:
为了有效地处理大规模数据集,在软件和硬件层面都出现了一些解决方法。
(1)处理各种规模数据集的有效架构。如:MapReduce,Hadoop是MapReduce架构的一个开源实现。
(2)基于非模式的数据库和高级分布式文件系统:Apache HBase和HDFS。