《数据分析实战》——用R做多元回归分析
本文参考的是《数据分析实战》的第六章。
背景:针对某公司对产品的不同广告平台投放,基于过去的新增用户数据和投放数据,希望获得更好的广告投放方式,以此建立数据模型。
现状:不同的广告平台投放,广告效果不同。
预期:对不同的广告平台加以比例,达到最佳效果。
明确问题:通过过去的投放数据和新增用户数据,用多元回归方程来确定不同平台的投放广告比例。
在商业领域,通常的做法是在充分考虑成本的前提下预估一个结果,再采取相应的对策。也就是说,通常我们会先确定结果,再反过来考虑相应对策的成本。放在本次案例中,我们需要先构筑一个可以预估各广告媒体能带来的用户量的模型,再决定广告的投放方式。
线性回归方程思想很简单:我们将数据描绘在图上,每个点表示一个数据,其中横坐标表示的变量称为自变量,纵坐标表示的变量称为因变量。然后我们在图上画出一条与这些数据点最为拟合的直线,根据这条直线上任何一点的横坐标(自变量)的值就可以得到纵坐标(因变量)的值,这就是线性回归分析。
读取数据
用R来读取相关数据:
> ad_data <- read.csv('ad_result.csv',header = T,stringsAsFactors = F)
> ad_data
month tvcm magazine install
1 2013-01 6358 5955 53948
2 2013-02 8176 606