本章讲解如何用R的基本方法做出摘要表和基本的可视化,并看出变化趋势;并介绍了分布曲线的特点以及分类。
本章所说的数值摘要就是一些基本的统计项目:均值和众数、百分数和中位数、标准差和方差;
可视化工具:直方图、核密度估计以及散点图。
准备知识:
作者认为把分析数据的工作分为两个独立的部分:探索和确认
- 对新数据集进行操作前,首先要推断数据集每一列的类型,含义;
一种常用的的变量编码方式:虚拟变量编码(dummy coding),如0表示正常电子邮件,1表示垃圾电子邮件,用0和1对一个对象的定性属性进行描述的方法。
R中的因子是采用文字标签来表达对象的定性属性,但是在后台实际上还是编码为数值型,当读取标签时,这些数值自动的映射为一个字符串索引数组中对应的字符串标签。
summary()可以给出一个数值向量的数值统计量
mean()均值
median()中位数
quantile()分位数,默认情况,会给出数据集的0%、25%、50%、75%以及100%位置处的数据。含义:第N个分位数就表示数据集中有N%的数据小于它
标准差和方差给出数据散布程度,最小值和最大值无法给出数据集的整体情况,R的内置函数sd()和var()实现;
R的内置函数var()与实际定义的方差函数会有偏差,解释:浮点运算的精度问题;var()函数的分母是向量长度减1(是因为从经验数据估算的方差会由于一些细微原因比其真值要略小)。
此时还没有给出众数的求解方法(继续往下看)
上面是一些基本的统计学术语,接下来对数据作出可视化的相关技术介绍,并介绍一些常用的分布
1.典型的单列可视化方法:直方图
library(ggplot2)
ggplot(heights.weights,aes(x = Height)) +