ML-for hackers 第二章笔记

本章讲解如何用R的基本方法做出摘要表和基本的可视化,并看出变化趋势;并介绍了分布曲线的特点以及分类。


本章所说的数值摘要就是一些基本的统计项目:均值和众数、百分数和中位数、标准差和方差;
可视化工具:直方图、核密度估计以及散点图。

准备知识:
作者认为把分析数据的工作分为两个独立的部分:探索和确认

  • 对新数据集进行操作前,首先要推断数据集每一列的类型,含义

一种常用的的变量编码方式:虚拟变量编码(dummy coding),如0表示正常电子邮件,1表示垃圾电子邮件,用0和1对一个对象的定性属性进行描述的方法。

  R中的因子是采用文字标签来表达对象的定性属性,但是在后台实际上还是编码为数值型,当读取标签时,这些数值自动的映射为一个字符串索引数组中对应的字符串标签。

summary()可以给出一个数值向量的数值统计量
mean()均值
median()中位数
quantile()分位数,默认情况,会给出数据集的0%、25%、50%、75%以及100%位置处的数据。含义:第N个分位数就表示数据集中有N%的数据小于它

标准差和方差给出数据散布程度,最小值和最大值无法给出数据集的整体情况,R的内置函数sd()和var()实现;

 R的内置函数var()与实际定义的方差函数会有偏差,解释:浮点运算的精度问题;var()函数的分母是向量长度减1(是因为从经验数据估算的方差会由于一些细微原因比其真值要略小)。

此时还没有给出众数的求解方法(继续往下看)


上面是一些基本的统计学术语,接下来对数据作出可视化的相关技术介绍,并介绍一些常用的分布

1.典型的单列可视化方法:直方图

library(ggplot2)
ggplot(heights.weights,aes(x = Height)) +
  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值