EduCoder上的Python机器学习小记

最新推荐文章于 2024-04-09 21:42:06 发布

hnu汐逸

最新推荐文章于 2024-04-09 21:42:06 发布

阅读量1k

点赞数 3

文章标签： python 机器学习

本文链接：https://blog.csdn.net/m0_53115123/article/details/114435062

版权

Python机器学习软件包Scikit-Learn的学习与运用

scikit-learn 是一个整合了经典的机器学习算法，与 Numpy、Scipy、Matplotlib 紧密结合的 Python 科学计算包，能简单有效的用于数据挖掘和数据分析。
scikit-learn 包含多个模块，应用场景包括数据分类、回归问题、聚类问题、数据降维、模型选择以及数据预处理等，功能强大，简单高效。

实训目标
本实训旨在，让学习者熟练掌握 scikit-learn 包的使用。

先修知识
本实训项目假设，你已经掌握了初步的 Python 程序设计基础知识。

实训知识点
数据集的导入与使用
数据预处理
文本特征提取
训练模型及预测
模型持久化
模型评估

题目链接：
https://www.educoder.net/shixuns/h7bcf5m8/challenges)

第1关：使用scikit-learn导入数据集

任务描述
使用 scikit-learn 的datasets模块导入 iris 数据集，并打印数据。
####相关知识
scikit-learn 包括一些标准数据集，不需要从外部下载，可直接导入使用，比如与分类问题相关的Iris数据集和digits手写图像数据集，与回归问题相关的波士顿房价数据集。
以下列举一些简单的数据集，括号内表示对应的问题是分类还是回归：

#加载并返回波士顿房价数据集（回归）
load_boston([return_X_y])
#加载并返回iris数据集（分类）
load_iris([return_X_y])
#加载并返回糖尿病数据集（回归）
load_diabetes([return_X_y])
#加载并返回数字数据集（分类）
load_digits([n_class, return_X_y])
#加载并返回linnerud数据集（多分类）
load_linnerud([return_X_y])
这些标准数据集采用类字典的对象格式存储,比如.data表示原始数据，是一个(n_samples,n_features)二维数组，通过.shape可以得到二维数组大小，.target表示存储数据类别即标签。
下面我们将利用datasets加载数据集digits作为示例，如下图所示：

在命令行输入python进入 Python 终端，>>>表示 Python 终端提示符，输入 Python 命令即可执行。y[:5]表示标签的前 5 个数据。

编程要求
本关任务是，使用 scikit-learn 的datasets模块导入iris数据集，提取前 5 条原数据、前 5 条数据标签及原数据的数组大小。
请按照编程要求，补全右侧编辑器Begin-End区间的代码。

测试说明
本关的测试文件是step1/testImportData.py，该代码负责对你的实现代码进行测试，注意step1/testImportData.py 不能被修改，该测试代码具体如下：

import importData
X,y,X_shape = importData.getIrisData()
print(X)
print(y)
print(X_shape)

具体代码：

from sklearn import datasets
def getIrisData():

    '''
    导入Iris数据集

    返回值：
    X - 前5条训练特征数据
    y - 前5条训练数据类别
    X_shape - 训练特征数据的二维数组大小
    '''
    #初始化
    X = [] 
    y = [] 
    X_shape = () 

    #   请在此添加实现代码   #
    #********** Begin *********#
    digits = datasets.load_iris()
    X = digits.data
    y = digits.target
    X_shape = X.shape
    X = X[:5]
    y = y[:5]
    
    #********** End **********#

    return X,y,X_shape

第2关：数据预处理 — 标准化

编程要求
本关任务希望对于 California housing 数据集进行标准化转换。
代码中已通过fetch_california_housing函数加载好了数据集 California housing 数据集包含 8 个特征，分别是[‘MedInc’, ‘HouseAge’, ‘AveRooms’, ‘AveBedrms’, ‘Population’, ‘AveOccup’, ‘Latitude’, ‘Longitude’]，可通过dataset.feature_names访问数据具体的特征名称，通过在上一关卡的学习，相信大家对于原始数据的查看应该比较熟练了，在这里不过多说明。

本次任务只对 California housing 数据集中的两个特征进行操作，分别是第 1 个特征 MedInc，其数据服从长尾分布；第 6 个特征 AveOccup，数据中包含大量离群点。

本关分成为几个子任务：
1.使用 MinMaxScaler 对特征数据 X 进行标准化转换，并返回转换后的特征数据的前 5 条；

2.使用 sca

最低0.47元/天解锁文章

hnu汐逸

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
EduCoder上的Python机器学习小记

Python机器学习软件包Scikit-Learn的学习与运用scikit-learn 是一个整合了经典的机器学习算法，与 Numpy、Scipy、Matplotlib 紧密结合的 Python 科学计算包，能简单有效的用于数据挖掘和数据分析。scikit-learn 包含多个模块，应用场景包括数据分类、回归问题、聚类问题、数据降维、模型选择以及数据预处理等，功能强大，简单高效。实训目标    本实训旨在，让学习者熟练掌握 scikit-learn 包的使用。先修知识&nbs
复制链接

扫一扫