[统计学笔记] (二)收集数据
数据是什么?
数据、信息和知识被广泛的用于计算机科学领域。
数据是信息的载体,信息是数据的语义解释。数据是得出结论的前提。信息是处理后的数据,为实际问题提供答案。
当我们增加一种关系或者一个关联时,数据就成为信息。这种关联通过提供数据背景来完成。这各背景有助于我们回答数据相关的问题。
数据有很多种表现形式,例如:
- CSV文件
- 数据库
- 文件格式(Excel、PDF、Word等)
- HTML文件、XML文件
- JSON文件
- 文本文件
- ……
知识是数据、信息通过经验获得的技能。知识包括做出适当决策的能力和执行时所需的技能。
收集数据的目的是为了进一步分析数据中隐藏的特征、规律、关联关系等,从而揭示数据背后隐藏的真相。为了基于已有数据信息得到最佳或者现实的决策,数据分析就尤为重要。
数据需要通过收集、处理和组织,才能够用于数据分析。
原始数据的收集
数据收集的分类
按数据收集的组织方式不同,分为统计报表和专门调查。
- 统计报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。
- 专门调查:为了某一特定目的或专门问题而专门组织的调查。
按数据收集对象包括范围的大小不同,分为全面调查和非全面调查。
- 全面调查:对构成调查对象中的所有党委进行一一不漏的调查。
- 非全面调查:是在统计调查过程中,仅对