sklearn机器学习编程练习大全（二）

最新推荐文章于 2024-08-15 15:37:30 发布

wp_tao

最新推荐文章于 2024-08-15 15:37:30 发布

阅读量156

点赞数 4

分类专栏：机器学习文章标签：机器学习 sklearn 人工智能

本文链接：https://blog.csdn.net/lyccomcn/article/details/138944096

版权

机器学习专栏收录该内容

30 篇文章 0 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了使用sklearn库进行机器学习实践的一些关键步骤，包括从字符串中提取标签，探索IRIS数据集，构建模型计算准确率，对目标列进行数值编码以及进行one-hot编码。通过具体的代码示例，详细展示了如何操作DataFrame，如转换数据格式、拆分训练测试集、建立逻辑回归模型、应用LabelEncoder和OneHotEncoder。

摘要由CSDN通过智能技术生成

第11题从字符串提取标签

DataFrame如下：

在这里插入图片描述
如何将以上的DataFrame变成如下的DataFrame？

代码如下：

import pandas as pd

df = pd.DataFrame(
        {'tags':['#name#hobby#score', '#python#Java#php#C++', '#country', '#today#tomorrow']}
)
df = df['tags'].str.split('#', expand=True)
df.drop(columns=[0], inplace=True)
df.columns = ['tag1', 'tag2', 'tag3', 'tag4']

第12题 IRIS数据集探索

1、如何加载IRIS数据集？代码如下：

from sklearn.datasets import load_iris
iris = load_iris()

2、如何将IRIS数据集转换成DataFrame形式？代码如下：

from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

得到如下的DataFrame：
在这里插入图片描述
3、拆分训练和测试集
拆分训练集和测试集需要使用sklearn.model_selection下面的train_test_split函数，函数的参数为特征数据、预估目标和测试集所占的比例，返回值有四个，代码如下：

from sklearn.model_selection import train_test_split
data_train, data_test, target_train, target_test = train_test_split(data, target, test_size=0.3)

第13题构建模型，计算准确率

1、接上题，构建逻辑回归模型，代码如下：

# 导入逻辑回归模型
from sklearn.linear_model import LogisticRegression   
#  max_iter=1000意思是对训练集训练1000次
model = LogisticRegression(max_iter=1000)

2、训练模型，代码如下：

model.fit(data_train, target_train)
# 查看模型在训练集上的得分，为0.99
model.score(data_train, target_train)
# 查看模型在测试集上的打分，为0.96
model.score(data_test, target_test)

3、混淆矩阵

在这里插入图片描述
4、分类报告

第14题预估目标列编码

DataFrame如下：
在这里插入图片描述
如何对target列进行数值的编码，转换成1、0的形式？这里需要借助sklearn的LabelEncoder，完整代码如下：

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
df = pd.DataFrame({
    'name': ['Zhangsan', 'Lisi', 'Wangwu', 'Zhaosi', 'Maliu', 'Zhouqi'],
    'hobby': ['basketball', 'football', 'badminton', np.nan, 'Table Tennis', np.nan],
    'gender': ['male', 'female', 'male', 'male', np.nan, 'female'],
    'weight': [130, 136, 120, 170, np.nan, np.nan],
    'target': ['yes', 'yes', 'no', 'yes', 'no', 'yes']
})
labelEncoder = LabelEncoder()
df['target'] = labelEncoder.fit_transform(df['target'])

再来看一下新的DataFrame:
在这里插入图片描述
逆转换，查看或者再转换为原来的列：

labelEncoder.inverse_transform(df['target'])

得到如下结果：array([‘yes’, ‘yes’, ‘no’, ‘yes’, ‘no’, ‘yes’], dtype=object)

第15题 one-hot编码

DataFrame如下，如何对score列进行one-hot编码？
在这里插入图片描述
使用sklearn的OneHotEncoder类，完整代码如下：

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
df = pd.DataFrame({
    'name': ['Zhangsan', 'Lisi', 'Wangwu', 'Zhaosi', 'Maliu', 'Zhouqi'],
    'hobby': ['basketball', 'football', 'badminton', np.nan, 'Table Tennis', np.nan],
    'gender': ['male', 'female', 'male', 'male', np.nan, 'female'],
    'score': ['good', 'bad', 'normal', 'normal', 'good', 'good'],
    'weight': [130, 136, 120, 170, np.nan, np.nan],
    'target': ['yes', 'yes', 'no', 'yes', 'no', 'yes']
})

oneHotEncoder = OneHotEncoder(sparse_output=False)
oneHotEncoder.fit(df[['score']])
oneHotEncoder.transform(df[['score']])

得到的结果如下：
在这里插入图片描述
如何查看该数组中的元素对应的是原来的哪个分类呢？使用oneHotEncoder的categories_属性：

wp_tao

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn机器学习编程练习大全（二）

得到如下结果：array([‘yes’, ‘yes’, ‘no’, ‘yes’, ‘no’, ‘yes’], dtype=object)如何对target列进行数值的编码，转换成1、0的形式？如何查看该数组中的元素对应的是原来的哪个分类呢？DataFrame如下，如何对score列进行one-hot编码？2、如何将IRIS数据集转换成DataFrame形式？如何将以上的DataFrame变成如下的DataFrame？1、如何加载IRIS数据集？3、拆分训练和测试集。
复制链接

扫一扫