数据集:各地区化妆品销量、适用人数和人均收入
本文研究二元线性回归分析。
1. 数据表
地区i | 销量(箱)yi | 人口(千人) xi1 | 人均收入(元)xi2 |
---|---|---|---|
1 | 162 | 274 | 2450 |
2 | 120 | 180 | 3254 |
3 | 223 | 375 | 3802 |
4 | 131 | 205 | 2838 |
5 | 67 | 86 | 2347 |
6 | 169 | 265 | 3782 |
7 | 81 | 98 | 3008 |
8 | 192 | 330 | 2450 |
9 | 116 | 195 | 2137 |
10 | 55 | 53 | 2560 |
11 | 252 | 430 | 4020 |
12 | 232 | 372 | 4427 |
13 | 144 | 236 | 2660 |
14 | 103 | 157 | 2088 |
15 | 212 | 370 | 2605 |
先将数据保存为
2.1.xlsx
.
2. 数据预处理
2.1 导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols # 线性回归
2.2 读取数据
data = pd.read_excel('2.1.xlsx')
2.3 规范字段信息(便于绘图显示)
data=data.rename(columns={
' 地区i':'i','销量(箱)yi':'Y','人口(千人) xi1':'X1','人均收入(元)xi2':'X2'})
print(data) # 预览字段信息修改后的数据
结果
:
i Y X1 X2
0 1 162 274 2450
1 2 120 180 3254
2 3 223 375 3802
3 4 131 205 2838
4 5 67 86 2347
5 6 169 265 3782
6 7 81 98 3008
7 8 192 330 2450
8 9 116 195 2137
9 10 55 53 2560
10 11 252 430 4020
11 12 232 372 4427
12 13 144 236 2660
13 14 103 157 2088
14 15 212 370 2605
3. 数据描述性分析
describe = data.describe()
print(describe)
结果
:
i Y X1 X2
count 15.000000 15.000000 15.000000 15.000000
mean 8.000000 150.600000 241.733333 2961.866667
std 4.472136 62.049289 116.829831 730.636500
min