1. 数据分析处理
使用scikit-learn自带的糖尿病病人采样并整理后的diabetes数据集,特点如下:
- 数据集有442个样本
- 每个样本有10个特征
- 每个特征都是浮点数,数据都在-0.2-0.2之间
- 样本的目标在整数25-346之间
import numpy as np
from sklearn import datasets, linear_model, model_selection
#加载数据
diabetes = datasets.load_diabetes()
#数据集的类型和数据
print(type(diabetes))
print(diabetes)
#数据集描述
print(diabetes.DESCR)
#拆分数据
#注:diabetes.data是样本特征集