数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。
一,认识变量和数据
变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。
1,变量
变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入等。
变量可以分为:
- 定性变量:用于分类,一般是文本,例如,性别、颜色
- 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值可以把事务排列为高低或大小,但是各个变量值之间没有确切的间隔距离,无法确定两个定序变量之间相差多少。
- 定量变量:是数量变量,能够比较大小。分为两类:离散变量和连续变量。
2,数据
数据是变量的具体值,按照变量的类型,可以把数据分为:分类数据、顺序数据和数值型数据。
按照数据分析的目的,可以把数据分为实验组(Treatment)和参照组(Control)。
按照数据的类型,可以把数据分为:文本数据、数值型数据和日期时间数据。
3,缺失值
不是所有的数据都是完整的,有些观测值可能会缺失&#x