sklearn数据集转换为csv以及数据集描述

最新推荐文章于 2023-04-07 10:43:40 发布

lovelife110

最新推荐文章于 2023-04-07 10:43:40 发布

阅读量2.2k

点赞数 16

分类专栏： python

本文链接：https://blog.csdn.net/qq_33873431/article/details/106048592

版权

python 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

波士顿房价load_boston导出csv例子(回归)

import pandas as pd
from sklearn.datasets import load_boston


if __name__ == '__main__':
    boston = load_boston()
    df = pd.DataFrame(boston.data, columns=boston.feature_names)
    df['MEDV'] = boston['target']
    df.to_csv('./boston.csv', index=None)

CRIM：城镇人均犯罪率。

ZN：住宅用地超过 25000 sq.ft. 的比例。

INDUS：城镇非零售商用土地的比例。

CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。

NOX：一氧化氮浓度。

RM：住宅平均房间数。

AGE：1940 年之前建成的自用房屋比例。

DIS：到波士顿五个中心区域的加权距离。

RAD：辐射性公路的接近指数。

TAX：每 10000 美元的全值财产税率。

PTRATIO：城镇师生比例。

B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。

LSTAT：人口中地位低下者的比例。

MEDV：自住房的平均房价，以千美元计。

威斯康辛州乳腺癌(二分类)

import pandas as pd
from sklearn.datasets import load_breast_cancer


if __name__ == '__main__':
    breast_cancer = load_breast_cancer()
    df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
    df['target'] = breast_cancer['target']
    df.to_csv('./breast_cancer.csv', index=None)

radius 半径（从中心到边缘上点的距离的平均值）
texture 纹理（灰度值的标准偏差）
perimeter 周长
area 面积
smoothness 平滑度（半径长度的局部变化）
compactness 紧凑度（周长 ^ 2 /面积 - 1.0）
concavity 凹面（轮廓的凹部的严重性）
concave points 凹点（轮廓的凹部的数量）
symmetry 对称性
fractal dimension 分形维数（海岸线近似 - 1）

radius (mean): 半径（平均值）
texture (mean): 纹理（平均值）
perimeter (mean): 周长（平均值）
area (mean): 面积（平均值）
smoothness (mean): 平滑度（平均值）
compactness (mean): 紧凑度（平均值）
concavity (mean): 凹面（平均值）
concave points (mean): 凹点（平均值）
symmetry (mean): 对称性（均值）
fractal dimension (mean): 分形维数（均值）
radius (standard error): 半径（标准误差）
texture (standard error): 纹理（标准误差）
perimeter (standard error): 周长（标准误差）
area (standard error): 面积（标准误差）
smoothness (standard error): 平滑度（标准误差）
compactness (standard error): 紧凑度（标准误差）
concavity (standard error): 凹面（标准误差）
concave points (standard error): 凹点（标准误差）
symmetry (standard error): 对称性（标准误差）
fractal dimension (standard error): 分形维数（标准误差）
radius (worst): 半径（最差）
texture (worst): 纹理（最差）
perimeter (worst): 周长（最差）
area (worst): 面积（最差）
smoothness (worst): 平滑度（最差）
compactness (worst): 紧凑度（最差）
concavity (worst): 凹面（最差）
concave points (worst): 凹点（最差）
symmetry (worst): 对称性（最差）
fractal dimension (worst): 分形维数（最差）

target : 0(恶性)和1(良性)

鸢尾花(多分类、聚类)

import pandas as pd
from sklearn.datasets import load_iris


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris['target']
    df.to_csv('./iris.csv', index=None)