python 分类_简单机器学习入门教程：用Python解决简单的水果分类问题

最新推荐文章于 2024-07-10 15:13:55 发布

weixin_39856269

最新推荐文章于 2024-07-10 15:13:55 发布

阅读量1.4k

点赞数

文章标签： python 分类

这篇教程介绍了如何使用Python的scikit-learn库解决水果分类问题，涉及数据预处理、多种分类算法如逻辑回归、决策树、KNN等，并通过比较性能选择最佳模型。

摘要由CSDN通过智能技术生成

1_副本-2.jpg

在这篇机器学习入门教程中，我们将使用Python中最流行的机器学习工具scikit- learn,在Python中实现几种机器学习算法。使用简单的数据集来训练分类器区分不同类型的水果。

这篇文章的目的是识别出最适合当前问题的机器学习算法。因此，我们要比较不同的算法，选择性能最好的算法。让我们开始吧!

数据

水果数据集由爱丁堡大学的Iain Murray博士创建。他买了几十个不同种类的橘子、柠檬和苹果，并把它们的尺寸记录在一张桌子上。密歇根大学的教授们对水果数据进行了些微的格式化，可以从这里下载。

让我们先看一看数据的前几行。

%matplotlib inline

import pandas as pd

import matplotlib.pyplot as plt

fruits = pd.read_table('fruit_data_with_colors.txt')

fruits.head()

图1

数据集的每一行表示一个水果块，它由表中的几个特征表示。

在数据集中有59个水果和7个特征:

print(fruits.shape)

(59, 7)

在数据集中有四种水果:

print(fruits['fruit_name'].unique())

[“苹果”柑橘”“橙子”“柠檬”]

除了柑橘，数据是相当平衡的。我们只好接着进行下一步。

print(fruits.groupby('fruit_name').size())

图2

import seaborn as sns

sns.countplot(fruits['fruit_name'],label="Count")

plt.show()

图3

可视化

每个数字变量的箱线图将使我们更清楚地了解输入变量的分布:

fruits.drop('fruit_label', axis=1).plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(9,9),

title='Box Plot for each input variable')

plt.savefig('fruits_box')

plt.show()

图4

看起来颜色分值近似于高斯分布。

import pylab as pl

fruits.drop('fruit_label' ,axis=1).hist(bins=30, figsize=(9,9))

pl.suptitle("Histogram for each

最低0.47元/天解锁文章

weixin_39856269

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。