特征向量化之one-hot(独热编码)

最新推荐文章于 2020-12-20 17:27:45 发布

Taoist_Nie

最新推荐文章于 2020-12-20 17:27:45 发布

阅读量2.3k

点赞数

文章标签：特征向量化 one-hot 机器学习

本文链接：https://blog.csdn.net/qq_39494028/article/details/84932958

版权

特征向量化之one-hot(独热编码)

one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位。例如：

import pandas as pd
import numpy as np

data=pd.DataFrame({'feature_1':[1,2,3,4,5],
                   'feature_2':['a','b','a','b','a']})
data

	feature_1	feature_2
0	1	a
1	2	b
2	3	a
3	4	b
4	5	a

上述数据中有两个特征，其中特征二有两个类别:a和b，在进行特征处理中，如果我们将a和b量化，但是a和b又是两个不相关的类别，那么分类器就会默认a和b之间是有顺序的。这样影响。如果我们将feature_2中的a,b对应两种状态，1 代表处于这种状态，0代表不处于这种状态。那么第一个样本中的特征二可以表示为{1 0},第二样本的特征二就表示为{0,1}。于是特征二被向量化，映射到欧式空间中的一个点。相当于增加了特征，对于根据距离来进行分类的分类器，会提高分类器的鲁棒性。但是像决策树、随机森林这样的算法来就意义不大，相当于增加了树的深度。

我们可以利用pandas中的get_dummies()函数来进行one-hot编码

tmpdf=pd.get_dummies(data['feature_2'],prefix='feature_2')
tmpdf

	feature_2_a	feature_2_b
0	1	0
1	0	1
2	1	0
3	0	1
4	1	0

# 添加进数据集
data=data.join(tmpdf)
data

	feature_1	feature_2	feature_2_a	feature_2_b
0	1	a	1	0
1	2	b	0	1
2	3	a	1	0
3	4	b	0	1
4	5	a	1	0

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Taoist_Nie

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

特征工程之One-Hot编码、label-encoding、自定义编码

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

01-26

5310

目录 One-Hot编码代码实现 One-Hot编码优缺点 One-Hot编码使用场景归一化适用场景 label encoding 代码实现 One-Hot与label encoding对比自定义编码利用字典编码自定义函数每文一语 One-Hot编码到目前为止，表示分类变量最常用的方法就是使用 one-hot 编码（one-hot-encoding）或N 取一编码（one-out-of-N encoding），也叫虚拟变量（dummy variable）。虚拟变

数据预处理之独热编码（One-Hot）：为什么要使用one-hot编码？

weixin_30377461的博客

07-09

2892

一、问题由来最近在做ctr预估的实验时，还没思考过为何数据处理的时候要先进行one-hot编码，于是整理学习如下：在很多机器学习任务如ctr预估任务中，特征不全是连续值，而有可能是分类值。如下：　　　　分类变量（定性特征）与连续变量（定量特征）。我们训练模型的变量，一般分为两种形式。以广告收入增长率为例，如果取值为0-1之间任意数，则此时变量为连续变量。如果把增长率进行分段处理，...

参与评论您还未登录，请先登录后发表或查看评论

MATLAB实现对序列数据的onehot编码

04-19

用MATLAB对碱基序列类型的生物数据进行onehot编码，对每一个碱基数据编码成四维数据，并求出m*n阶编码矩阵的奇异值，以期可以后续用奇异值表征编码矩阵

2020-06-03 nlp_02之文本向量化的几种方式：one-hot, 文本相似度（欧氏距离、余弦相似度）, tf-idf

qwe1110的博客

06-03

1757

one-hot P30 通过构建词典的顺序，找出对应单词的位置，词典：中文有20万-30万个常用词， rnn和lstm中，也有使用字符集的，常用字符大概5000个例子：词典（只有7个单词，即7个维度）：[今天，天气，不错，挺，风和日丽，的，明天] 每个单词的表示：今天：[1, 0, 0, 0, 0, 0, 0] 不错：[0, 0, 1, 0, 0, 0, 0] 的： [0, 0, 0, 0, 0, 1, 0] 句子的表示：两种方式： 1、boolean，不...

one-hot向量形式

热门推荐

笔记小屋

10-21

5万+

one-hot向量这个向量的表示为一项属性的特征向量，也就是同一时间只有一个激活点（不为0），这个向量只有一个特征是不为0的，其他都是0。特别稀疏，这个稀疏矩阵用来组成一个多特征的训练集样本，相当于样本是一个二维矩阵，行代表特征数，列表示为特征数的one-hot向量。表示 one-hot向量表示为ti={0,0,0,...,1,...0}t_i=\{0,0,0,...,1,...0\}ti=...

MATLAB实现one-hot

阳光一直都在的博客

04-16

6223

MATLAB实现one-hot 我们以x=[2,2,3]为例 I=eye(max(x)) x_one_hot=I(x,:) 运行后输出 x_one_hot = 0 1 0 0 1 0 0 0 1 就是我们要的one-hot编码

python one hot编码_机器学习：数据预处理之独热编码（One-Hot）

weixin_39621774的博客

12-13

751

前言————————————————————————————————————————在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：["男"，"女"]祖国特征：["中国"，"美国，"法国"]运动特征：["足球"，"篮球"，"羽毛球"，"乒乓...

tensorflow独热编码方法_独热（one-hot）编码的tensorflow实现

weixin_39576018的博客

12-20

1163

一、独热编码独热编码，又称一位有效码，用序列化的数字(只有0和1)表达特征。主要思路是使用N位数字对N种情况进行编码。举个例子，对[0,1,2,3]分别进行编码。由于有4种情况，序列的长度为4，对应数字的位置1，其余置0。所以：[1,0,0,0][0,1,0,0][0,0,1,0][0,0,0,1]二、几个必要函数掌握了独热编码的规律，我们先来看一段代码，了解几个必要的函数。import tens...

文本向量化：One-hot编码与词嵌入的比较

在这一章中，我们将探讨文本向量化的概念，以及介绍One-hot编码和词嵌入这两种常见的文本向量化方法。 # 3. One-hot编码的优缺点分析在本章节中，我们将探讨One-hot编码作为一种文本向量化方法的优缺点，并分析其...

one-hot编码方法

05-22

one-hot编码的两个方法。。。。。。。。。。。。。。。。。。。。。。。。。

基于神经网络的分类（one-hot）

03-08

基于神经网络的分类，train+test+predict，还有生成one-hot编码格式的函数。很好用，推荐，有已经训练号的权重文件checkpoint等。

NLP《词汇表示方法（一）one-hot向量表示》

qq_29367075的博客

11-01

2196

词语是NLP里面最基本的要处理的单元，词语组合成能句子，句子组成段落，段落组成文章，因此，最基本要处理的就是词语了，我们知道，词语都是一个个的符号表示的。我们怎么用数值化的方式表示呢，这样才能方便计算机去计算处理。在字符编码中也被分配了一定的数字来代表某个字符，比如UTF-8等字符编码方式。每一个数字都可以对应于某个字符，对于一些离散的应用来说，这个编码也就够了，但是这种编码仅仅能对字符做个区分表示而已。一：词语的表示原始的方法就是one-hot向量的方法。假如我们有个词库，一共有V个词汇，罗列了所

pytorch---之转成one-hot向量

zxyhhjs2017的博客

09-25

1万+

对于分类问题，标签可以是类别索引值也可以是one-hot表示。以10类别分类为例，lable=[3] 和label=[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]是一致的. 现在给定索引标签，怎么将其转换为one-hot标签表示？或者直接torch.LongTensor(data),然后再转为one-hot >>>class_num = 10 >&g...

MATLAB实现one-hot编码和逆编码

qq_36108664的博客

11-17

6390

将数字标签进行one-hot独热编码转换需要注意的是数字编码ind需要包含从1开始到n（任意正整数）的编号，但是不能跳过1~n中的任一个数字。可以是1,2,3,4,5…3484，但不能是1,2,3,5。而且数字标签需要是行向量，不能是列向量。 ind = [1 3 5 7 9 10 2 4 6 8]; % n = length(unique(ind));% 一共有多少类 onehot = full(ind2vec(ind,n)) % ind2vec():将ind标签转换成vec稀疏编码，再由full()

机器学习特征处理——独热向量编码

qq_43874601的博客

08-02

3368

在机器学习算法中，常会遇到分类特征是离散的，无序的。例如：性别有男、女，城市有北京，上海，深圳等。性别特征： [“男”，“女”] => 0，1 地区特征： [“北京”，"上海，“深圳”] => 0，1，2 工作特征： [“演员”，“厨师”，“公务员”，“工程师”，“律师”] => 0，1，2，3，4 性别特征： [“男”，“女”] => 0，1 地区特征： [“北京”，"上海，“深圳”] => 0，1，2 工作特征： [“演员”，“厨师”，“公务员”，“工程师”，“律师”

pytorch 向量转化为one-hot编码

ephram每天都想下班

10-09

1627

#pytorch 向量转化为one-hot编码 import torch #原始向量 index = torch.tensor([[1], [2], [0], [3]]) onehot = torch.zeros(4, 4) onehot.scatter_(1, index, 1) print(onehot) #结果 tensor([[0., 1., 0., 0.], [0., 0., 1., 0.], [1., 0., 0., 0.], [0., 0., 0., 1.]]) ...

机器学习-数据预处理之独热编码（One-Hot）

wzy2643的博客

08-04

1295

机器学习-数据预处理之独热编码（One-Hot）在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男有女，国籍有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：[“男”，“女”] 祖国特征：[“中国”，"美国，“法国”] 运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”] 如果将上述特...

pandans对某一列进行独热编码

醉糊涂仙的博客

11-06

3495

需求：将数据集一列进行独热编码 （1）如果所有取值都出现在所在列，则： from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(sparse = False) result = enc.fit_transform(data[[41]]) #41指的是列标为41的那一列数据（2）如果所有取值未完全出现在所在列...