R语言之数据可视化 - 了解数据特征

1. R语言 数据基础

  - 观测(pbservation)、变量(variable)、数据矩阵(data matrix)

    

  - 变量的类型

    1. 数值(quantitative):可以进行加减乘除求平均等运算

      - 连续:可在给定区间取任意数值(无限)

      - 离散:在给定数值集合内取值(有限)

    2. 分类(qualitative):取值空间有限;不能进行运算

      - 无序:不可比较

      - 有序:顺序有意义

  - 变量间的关系(对应不同的可视化方法和统计分析方法)

    1. 两个数值变量

    2. 两个分类变量

    3. 一个数值变量、一个分类变量

2. R语言 数值变量的特征和可视化

  2.1 数据集中趋势的测量(measures of center)

    - 均值(mean)、中位数(median)、众数(mode)

      中位数:排序后位于正中间的一个数或位于正中间的两个数的均值

      众数:出现次数最多的数

  2.2 数据分散趋势的测量(measures of spread)

    - 值域(range)、方差(variance)、标准差(standard variance)、四分位距(interquartile range)

      方差 = 

        (每一个数据减去平均数)做平方2,再进行加和∑,最后除以(数据个数-1)

      标准差 = 方差开方  

> x <- c(1,9,2,8,3,9,4,5,7,6)
> mean(x)
[1] 5.4
> median(x)
[1] 5.5
> var(x)
[1] 8.266667
> sd(x)
[1] 2.875181
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    3.25    5.50    5.40    7.75    9.00 
> 

  2.3 稳健统计量(robust statistics)

    - 是稳健统计量:中位数、四分位差(受极端值影响小)

    - 非稳健统计量:均值、标准差、值域(受极端值影响大)

  2.4 一个变量的可视化:

    - 柱状图(histogram)、点图(dot plot)(分布)

      左偏分布、正态分布(单峰分布)、右偏分布、点图

      

    - 箱图(box plot)(中位数、分位点、极端值)

      Q1: 25%分位点值    Q3: 75%分位点值

      

  2.5 两个变量的关系:

    - 散点图(scatter plot):方向、形状、强度、极端值

      

3. R语言 分类变量的特征和可视化

  3.1 一个分类变量的可视化

    - 频率表(frequency table)、条形图(bar plot)

      

  3.2 两个分类变量的关系

    - 关联表(contingency table)、相对频率表(relative frequencies)

      

    - 分段条形图、相对频率分段条形图

      

    - 马赛克图(mosaic plot)

      

  3.3 一个分类变量、一个数值变量的关系

    - 并排箱图(side-by-side box plot)

       

4. 小结

  

 

转载于:https://www.cnblogs.com/wnzhong/p/6421256.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值