pytorch标签onehot编码_使用numpy,sklearn,Keras进行One hot编码

机器学习中机器不能理解单词,因此需要数值,以便机器更容易地处理数据。要对数据应用任何类型的算法,我们需要将分类数据转换为数字。为了实现这一点,可以采用One hot编码,因为它可以转换分类变量到binary vectors。

例:

假设我们有句“Can I eat the Pizza”。

我们可以直接说所有的单词都彼此不同,但在机器学习中机器是怎么知道的呢?

所以我们尝试应用One hot编码,即将类别转换为数字标签。

  1. 首先,将文本进行转换,按升序形式对单词进行排序,即A-Z。现在“can, eat, i, pizza, the”。
  2. 给一个数字标签,我们可以看到can在第0位,eat在第1位,分配值:can:0, i:2, eat:1, the:4, pizza:3。
  3. 转换为binary vectors。
3918ce87bf3fc6d3efc9f38e4b366647.png

分类变量基本上是基于一些定性性质的固定值。比如个体的性别,可以是男性,女性。天气也是一个例子,因为它可以是晴天,多云,或下雨。

binary vectors只是包含0和1的值。

使用Numpy

import numpy as npdocs = "Can I eat the Pizza".lower().split()doc1 = set(docs)doc1 = sorted(doc1)print ("values: 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值