R学习连续变量之间的关系

穷则独善其身,达则兼善天下。——《孟子》

1 plot (x,y)能够创建散点图,其中x代表横坐标,y代表纵坐标,这两个向量坐标一致。

2 若我们向他人展示图形的话,那么绘图时注意使用xlab,ylab 和main选项作为图形加上合适的标签,这样便于理解图像

3 使用参数col 对图形的着色

4 使用参数legend对图形添加图例,这样读者知道每种颜色代表什么。

5 使用参数cex帮助我们调节散点图上点的大小

6 散点矩阵是很好的可视化变量对之间关系的方法:能绘制散点图矩阵的函数paris(),cars包中的scatterplot Matrix(),以及gparis 包中的gpairs()

7 当变量高度有偏时,可使用设置plot()函数中的log选项对相应的坐标的进行数量变换,共有三种: log="x"log="y" log="xy"

9 cor(x,y)能够计算两个变量之间的Person的相关系数r,该系数是两个变量之间线性相关强度的度量

10 cor()会给出一个相关矩阵,当变量的个数大于1时,对相关矩阵进行可视化的一个简单方式使用corrplot包;

11 cor.test()能够检测相关性是否统计显著,并且给出相关系数的r的置信区间。

12 根据市场营销数据,参考Cohen的经验法则来判定r的强度:r=0.1是弱相关,r=0.3是中等相关,r=0.5是强相关

13 Box-Cox变换是自动选择最优选择数据变换的方法之一

14 当两个变量是非线性相关时,r不能给出准确的的相关性估计,变化后的变量之间的相关性系数r通常更大

  经典的市场营销的数据更换:

            变量

                常见变换

销售量   公司收入 家庭收入  价格

   log(x)

距离

   1/x,1/x^2,log(x)

市场份额,或者选择偏好

   e^2/(1+e^2)

右偏分布  一般而言

      

左偏分布  一般而言

       

由于部分公式无法显示,所以只能截图了:



下面给出一些函数和图形的实例;
jitter函数的用法:在每个观测值上加上一点点的随机扰动,这样观测值就不会完全重合:

plot(cust.df$sat.service,cust.df$sat.selection,xlab="Customer Satisfaction with service",ylab="customer satisfaction with selection",
     main="customers as of June 2014")


 

plot(jitter(cust.df$sat.service),jitter(cust.df$sat.selection),xlab="Customer Satisfaction with service",ylab="customer satisfaction with selection",
     main="customers as of June 2014")

Box-Cox的变换:

install.packages("car")

library(car)
powerTransform(cust.df$distance.to.store)


lambda<-coef(powerTransform(1/cust.df$distance.to.store))
bcPower(cust.df$distance.to.store,lambda)

par(mfcrow=c(1,2))
hist(cust.df$distance.to.store,xlab="Distance to nearest Store",ylab="Count of Customer",main="Original Distribution")

hist(bcPower(cust.df$distance.to.store,lambda),xlab="Box-Cox Transformation of distance ",ylab="Count od customers",main="Transformed distribution")

这是下面产生的图形:


经过变换后的的图形符合正态分布:


©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页