数据EDA阶段的绘图

作者:李赞,尚进

minkowsk距离的计算

距离的计算公式如下:
在这里插入图片描述
常见的minkowsk距离中p=1,2,inftity
在这里插入图片描述
特别地,p=infity时,是序列中的最大值在这里插入图片描述

实现方法scipy.spatial.distance.pdist【python】

在这里插入图片描述
另外,pdist中根据metric参数赋值的不同还可以计算其他距离,例如:
在这里插入图片描述

柱状图

适用情形

用于展示分类变量与数值变量之间的关系

barplot【R】

barplot(class_sum$x)#最简单的输出
plot(x)# x为factor类型

在这里插入图片描述

饼图

适用情形

用于展示各部分的比例;可用于展示分类变量与数值变量之间的关系。

pie 【R】

pie(clu_sum$x)

在这里插入图片描述

直方图的绘制方法

适用情形

用于展示数据的分布;可用于对比多组数据之间的分布差异;可用于检查数据是否服从正态分布。

hist【R】

hist(airquality$Wind)

在这里插入图片描述

seaborn.distplot【python】

在这里插入图片描述

plotly.express.histogram 【python,交互】

在这里插入图片描述
在这里插入图片描述

箱线图的绘制方法

适用情形

用于展示数据分布;用于观察数据是否偏态。

boxplot 【R】

boxplot(x)
plot(x,y) #x为factor类型,y为数值向量

在这里插入图片描述

#分类箱线图
png(filename = "air_box+clu_r.png",width = 700,height = 480,units = "px",
    bg = "transparent",res = 70)#创建画布,res为分辨率
par(oma=c(0,0,3,0))
boxplot(Wind~Month,data=air,#构建公式即可,~右边为分类变量,左边为数值型变量
        col=rainbow(5,start = 4/10,end=1/10,alpha = 0.3))
mtext('batches of boxplots',side=3,line=0,cex=1.5,col='purple',outer = T)
dev.off()

在这里插入图片描述

matplotlib.pyplot.boxplot【python】

在这里插入图片描述
在这里插入图片描述

散点图的绘制方法

适用情形

用于展示数值变量与数值变量之前的关系。

plot 【R】

#散点图、气泡图
z=Puromycin#两种细胞中辅因子浓度对酶促反应的影响
xl=range(z$conc)
yl=range(z$rate)#获取两个变量的极值向量
png(filename = "xibao_scatter1_r.png",width = 480,height = 480,units = "px",   bg = "transparent",res = 64)#创建画布
plot(z$conc,z$rate,pch = 2,cex=0.7,col='blue',main = 'scatter plot',   xlim = xl,ylim = yl)#设置点的形状、颜色、标题、坐标轴
dev.off()#关闭画布

在这里插入图片描述

seaborn.relplot【python】

在这里插入图片描述

在这里插入图片描述

plotly.graph_objects.Scatter【python,交互】

在这里插入图片描述
在这里插入图片描述

matplotlib.pyplot.scatter【python】

在这里插入图片描述
在这里插入图片描述

矩阵散点图的绘制方法

适用情形

用于快速探究各变量之前的关系。

pairs【R】

car<-mtcars    #32辆汽车在11个指标上的数据
png(filename = "xibao_scatter3_r.png",width = 480,height = 480,units = "px",   bg = "transparent",res = 64)
pairs(~mpg+disp+hp+drat+wt+qsec,data=car,#pairs函数即可
      main='Scatterplot Matrix',pch=20,cex=0.6)
dev.off()

在这里插入图片描述

seaborn.pairplot【python】

在这里插入图片描述
在这里插入图片描述

热力图的绘制方法

适用情形

用于展示相关系数矩阵的数据情况;用于对较大矩阵的数值分布的直观展示。

matplotlib.pyplot.colorbar【python】

在这里插入图片描述
在这里插入图片描述

平行坐标系的绘制方法

适用情形

用于展示多组具有多属性样本之间的相似程度。

pandas.plotting.parallel_coordinates【python】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Chernoff脸图的绘制方法

适用情形

用于展示多组具有多属性样本之间的差异程度。

aplpack::face【R】

在这里插入图片描述

参考:

https://blog.csdn.net/pikapikaka/article/details/127037967?spm=1001.2014.3001.5502
https://blog.csdn.net/pikapikaka/article/details/127000863?spm=1001.2014.3001.5502

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值