ML-for hackers 第二章笔记

最新推荐文章于 2022-07-27 23:46:42 发布

Distrlili

最新推荐文章于 2022-07-27 23:46:42 发布

阅读量851

点赞数

分类专栏： R programing 文章标签： machine

本文链接：https://blog.csdn.net/G090909/article/details/50912769

版权

本章介绍如何使用R进行数据摘要和可视化，包括直方图、核密度估计和散点图。讨论了均值、中位数、分位数等统计量，以及分布曲线的特点。直方图和核密度估计展示了数据的分布形态，而散点图用于揭示两个变量间的关系。此外，介绍了分类和回归的基础概念。

摘要由CSDN通过智能技术生成

本章讲解如何用R的基本方法做出摘要表和基本的可视化，并看出变化趋势；并介绍了分布曲线的特点以及分类。

本章所说的数值摘要就是一些基本的统计项目：均值和众数、百分数和中位数、标准差和方差；
可视化工具：直方图、核密度估计以及散点图。

准备知识：
作者认为把分析数据的工作分为两个独立的部分：探索和确认

一种常用的的变量编码方式：虚拟变量编码(dummy coding)，如0表示正常电子邮件,1表示垃圾电子邮件,用0和1对一个对象的定性属性进行描述的方法。

  R中的因子是采用文字标签来表达对象的定性属性，但是在后台实际上还是编码为数值型，当读取标签时,这些数值自动的映射为一个字符串索引数组中对应的字符串标签。

summary()可以给出一个数值向量的数值统计量
mean()均值
median()中位数
quantile()分位数，默认情况,会给出数据集的0%、25%、50%、75%以及100%位置处的数据。含义：第N个分位数就表示数据集中有N%的数据小于它

标准差和方差给出数据散布程度，最小值和最大值无法给出数据集的整体情况，R的内置函数sd()和var()实现;

 R的内置函数var()与实际定义的方差函数会有偏差，解释：浮点运算的精度问题；var()函数的分母是向量长度减1(是因为从经验数据估算的方差会由于一些细微原因比其真值要略小)。

此时还没有给出众数的求解方法（继续往下看）

上面是一些基本的统计学术语，接下来对数据作出可视化的相关技术介绍，并介绍一些常用的分布

1.典型的单列可视化方法：直方图

library(ggplot2)
ggplot(heights.weights,aes(x = Height)) +

关注

专栏目录