Kaggle实战之leaf classification（树叶分类）

最新推荐文章于 2025-04-07 18:48:13 发布

Tom Hardy

最新推荐文章于 2025-04-07 18:48:13 发布

阅读量1.1w

点赞数 5

分类专栏：机器学习 kaggle实战

本文链接：https://blog.csdn.net/qq_29462849/article/details/80640285

版权

本文介绍了在Kaggle上的树叶分类实战，数据已转化为192维特征向量。通过比较不同分类器，发现LinearDiscriminantAnalysis表现最佳，达到97.98%准确率，最终选择它对无标签数据进行分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

首先来直观看下所要分类的图像数据：

在这里一共是99种树叶，每种树叶包含16幅图像，因此训练集中一共1584幅图像。然而，我们不对图像直接操作，kaggle为每个图像提供三组特征：形状连续描述符，内部纹理直方图和细尺度边缘直方图。对于每个特征，每个叶样本给出一个64属性的向量，因此，对于一幅图像来说，一共是64x3=192个向量。kaggle把每个训练图像转化成一个192维向量，并把所有训练图像的数据保存到train.csv文件中，包括标签。这样，在实际训练使用时，可以直接提取train.csv文件中的数据，其实是kaggle直接把数据给提取好了，不需要对图像再进行操作。train.csv文件中的内容如下所示：

树叶分类

当拿到数据和标签后，第一个问题就是该如何分类，选择哪种分类器，不急，一步一步推进吧！

第一步：导入训练和测试数据

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

def warn(*args, **kwargs): pass
import warnings
warnings.warn = warn

from sklearn.preprocessing import LabelEncoder
from sklearn.cross_validation import StratifiedShuffleSplit

train = pd.read_csv('C:/Users/new/Desktop/data/train.csv')
test = pd.read_csv('C:/Users/new/Desktop/data/test.csv')

第二步：准备好训练/测试数据以及标签

def encode(train, test):
    le = LabelEncoder().fit(train.species) #对数据进行标签编码
    labels = le.transform(train.species)           # encode species strings
    classes = list(le.classes_)                    # save column names for submission
    test_ids = test.id                             # save test ids for submission

    train = train.drop(['species', 'id'], axis=1)  
    test = test.drop(['id'], axis=1)

    return train, labels, test, test_ids, classes

train, labels, test, test_ids, classes = encode(train, test)