简介
sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。
本次数据分析实战,对糖尿病数据集进行回归分析。
一、导入数据
# 导数据分析常用包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导包获取糖尿病数据集
from sklearn.datasets import load_diabetes
data_diabetes = load_diabetes()
print(data_diabetes)
# 我们先看一下数据是什么样:
# diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。
输出结果:
{ 'data': array([[ 0.03807591, 0.05068012, 0.06169621, ..., -0.00259226,
0.01990842, -0.01764613],
[-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
-0.06832974, -0.09220405],
[ 0.08529891, 0.05068012, 0.04445121, ..., -0.00259226,
0.00286377, -0.02593034],
...,
[-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,</