标签的独热编码——LabelBinarizer()

最新推荐文章于 2024-07-28 21:01:31 发布

SoulMartyr

最新推荐文章于 2024-07-28 21:01:31 发布

阅读量4.6k

点赞数 2

文章标签：机器学习

本文链接：https://blog.csdn.net/SoulMartyr/article/details/115050648

版权

本文介绍如何利用sklearn.preprocessing中的LabelBinarizer函数实现图像标签的独热编码，并通过一个具体的示例展示了从加载数据到标签转换的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

~~[这是一个简单的备忘录]~~
LabelBinarizer()是sklearn.preprocessing中的一个函数，通过这个函数可以实现机器学习中国对图像标签的独热编码。
独热编码是一种二进制编码，通俗的讲独热编码主要满足以下几个条件：

图像有n类，则编码长度为n
对第i类编码，只有第i位置1，其余为0 ( $\leq i \leq n$ )

在使用LabelBinarizer()时，首先要申明一个变量作为其载体
~~（具体名词我不知道）~~ ，再分别调用fit与transform函数实现。
for example：

import glob
from sklearn.preprocessing import LabelBinarizer
DATA_DIR = 'D:/Data/'
# 总共三个类别，每个类别下有十张图片
images = glob.glob(DATA_DIR + 'fruits_photos/*/*.jpg')
images = [x.replace('\\', '/') for x in images]
labels = [x.split('/')[3] for x in images]

unique_labels = set(labels)

# 将标签转换二进制格式
encoder = LabelBinarizer()
print(encoder)
encoder.fit(labels)
y = encoder.transform(labels).astype(float)
print(y)

输出结果为：

LabelBinarizer()
[[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]
[0. 0. 1.]]