python数据分析水果_用python解决简单的水果分类问题

在这篇文章中,我们将使用Python中最流行的机器学习工具scikit- learn,在Python中实现几种机器学习算法。使用简单的数据集来训练分类器区分不同类型的水果。

这篇文章的目的是识别出最适合当前问题的机器学习算法。因此,我们要比较不同的算法,选择性能最好的算法。让我们开始吧!

数据

水果数据集由爱丁堡大学的Iain Murray博士创建。他买了几十个不同种类的橘子、柠檬和苹果,并把它们的尺寸记录在一张桌子上。密歇根大学的教授们对水果数据进行了些微的格式化,可以从这里下载。

下载地址:https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/fruit_data_with_colors.txt

让我们先看一看数据的前几行。

1%matplotlib inline

2import pandas as pd

3import matplotlib.pyplot as plt

4fruits= pd.read_table('fruit_data_with_colors.txt')

5fruits.head()

图1

数据集的每一行表示一个水果块,它由表中的几个特征表示。

在数据集中有59个水果和7个特征:

1print(fruits.shape)

(59, 7)

在数据集中有四种水果:

1print(fruits['fruit_name'].unique())

[“苹果”柑橘”“橙子”“柠檬”]

除了柑橘,数据是相当平衡的。我们只好接着进行下一步。

1print(fruits.groupby('fruit_name').size())

图2

1import seaborn as sns

2sns.countplot(fruits['fruit_name'],label="Count")

3plt.show()

图3

可视化

每个数字变量的箱线图将使我们更清楚地了解输入变量的分布:

1fruits.drop('fruit_label', axis=1).plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(9,9),

2title='Box Plot for each input variable')

3plt.savefig('fruits_box')

4plt.show()

图4

看起来颜色分值近似于高斯分布。

1import pylab as pl

2fruits.drop('fruit_label' ,axis=1).hist(bins=30, figsize=(9,9))

3pl.suptitle("Histogram for each numeric input variable")

4plt.savefig('fruits_hist')

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值