数据收集与分析软件
一、数据收集过程
1.数据的类型
数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的数据,通常按数据的手机途径可以将数据进行如下分类:
1.1按度量尺度分
- 定性数据(也称计数数据,qualitative data)
定性数据是对度量事物进行分类的结果。数据表现为类型,用文字来表述,如性别、区域、产品分类等。 - 定量数据(也称计量数据,quantitative data)
定量数据是对度量事物的精确测度。结果表现为具体的数值,如身高、体重、家庭收入等。
1.2按时间状态分
-
横截面数据(也称截面数据,cross-section data)
横截面数据是指对变量在某一时点上收集的数据的集合,反应在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况。 -
时间序列数据(也称动态数列,time series data)
时间序列数据是按照一定时间间隔对某一变量在不同时间的取值进行观测得到的一组数据,反应在不同时间上收集到的数据描述现象随时间变化的情况。
2.数据的收集
数据收集有一定的格式,当对一个观察指标测量了每一观察单位的数据时,通常以向量的形式展现X:x1、x2、……xn。
当对每一观察单位测量了多个指标时,通常以双向表的矩阵形式展现。
不同领域对该数据的观察单位和指标的叫法不同:数学上称他们为行(row)和列(column)的二维数组或矩阵。统计学上称他们叫做观测(observation)和变量(variable)的数据集,数据库中称他们记录(record)和字段(field)的数据表,人工智能中称他们为示例(example)和属性(attribute)的数据集。
2.1单变量数据收集
这类数据通常是一个个单独的数据变量,都可以单独拿来进行数据分析。
2.2多元数据收集
这类数据也称横截面数据,主要是用来研究多个变量间的关系,包括综合分析、分类分析等。
2.3时序数据的收集
时序数据是一类比较特殊的数据,也称纵向数据,它对数据的格式有一定的要求,特别是时间序列数据,须注意时间序列数据的输入格式。