基于线性回归的广告投入销售额预测
目录
前言
学习机器学习算法最好的方法就是实战,因此笔者将利用网上的数据资源进行实践,并将实现过程与结果记录于博客中,积累实战经验,从今天开始更新。
一般学习的第一个算法模型就是经典线性模型了,因此本文将从经典线性模型开始!
基于线性回归的广告投入销量预测
某销售公司为了查找某产品的销售额与电视广告投入、收音机广告投入、报纸广告投入之间的关系,提供了过往历史数据请求进行分析。数据集具体指标说明如下:
- TV:在电视上投资的广告费用(以千万元为单位);
- Radio:在广播媒体上投资的广告费用;
- Newspaper:用于报纸媒体的广告费用;
- Sales:对应产品的销量(响应变量)
(本文数据来自《Python数据挖掘与机器学习实战》)
导入相关的库
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
读取并查看数据基本情况
data = pd.read_csv('Advertising.csv')
data.head()
输出结果:
从输出的前5行结果可以看出,第一列为索引列,不纳入数据建模(后续需要去除);数据共4个变量,其中自变量为“TV”、“Radio”、“Newspaper”,因变量为“sales”。
接下来去掉数据集中的索引项
data = data.iloc[:,1:]
data.head()
输出:
查看数据维度
data.shape
输出:
(200, 4)
结果表明数据集共4个特征、200条记录。
查看数据基本统计情况
data.describe()
输出: