Pandas中类别型变量映射为数字或其它值

最新推荐文章于 2023-03-01 06:54:15 发布

PolyAI

最新推荐文章于 2023-03-01 06:54:15 发布

阅读量5.7k

点赞数 5

文章标签： pandas 类别型变量 python

本文链接：https://blog.csdn.net/liulunyang/article/details/88089962

版权

在机器学习中对于有序的类别型变量可以不采用onehot编码，直接使用有序数字代替即可，这个目的可以在pandas中使用map方法实现。

import pandas as pd

创建数据框

raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'], 
        'age': [42, 52, 36, 24, 73], 
        'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df

	first_name	last_name	age	city
0	Jason	Miller	42	San Francisco
1	Molly	Jacobson	52	Baltimore
2	Tina	Ali	36	Miami
3	Jake	Milner	24	Douglas
4	Amy	Cooze	73	Boston

在这里假定是有序的,将城市名映射为数字，当然也可是是其它字符中：

创建用于map的字典

city_to_state = { 'San Francisco' : 0, 
                  'Baltimore' : 1, 
                  'Miami' : 2, 
                  'Douglas' : 3, 
                  'Boston' : 4}

城市名map到洲名，保存到state变量中：

df['state'] = df['city'].map(city_to_state)
df

	first_name	last_name	age	city	state
0	Jason	Miller	42	San Francisco	0
1	Molly	Jacobson	52	Baltimore	1
2	Tina	Ali	36	Miami	2
3	Jake	Milner	24	Douglas	3
4	Amy	Cooze	73	Boston	4

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PolyAI

关注关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ML之FE：数据预处理中基于pandas实现类别型字段数据编码(包括自定义编码映射字典)、目标变量布尔类型化且同时输出raw_df和df数据之代码实现攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

07-26

1613

ML之FE：数据预处理中基于pandas实现类别型字段数据编码(包括自定义编码映射字典)、目标变量布尔类型化且同时输出raw_df和df数据之代码实现攻略目录一、类别型字段数据编码二、数据预处理中基于pandas实现类别型数据数值化(包括自定义编码映射字典)、目标变量布尔类型化且同时输出raw_df和df数据一、类别型字段数据编码 1、利用cat函数实现类别型字段编码处理：先新增gender1列，再对该列进行类别赋值 #Categorical按某一列重新编码分类：如性别、时间等

利用pandas将非数值数据转换成数值的方式

09-18

今天小编就为大家分享一篇利用pandas将非数值数据转换成数值的方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

参与评论您还未登录，请先登录后发表或查看评论

PyPackage01---Pandas14_对类别型变量做映射

此心安处是吾乡

01-14

332

Intro 有时候，需要把字符串当做代码执行，看个例子 getattr Get a named attribute from an object; getattr(x, ‘y’) is equivalent to x.y import pandas as pd df=pd.DataFrame({"x":[1,2,3]}) getattr(df,"x").count() 3 getattr(df,“x”)相当于df.x 如果想执行df.x*2怎么弄？ eval eval("df.x*2") 0

pandas合并、转换、映射、替换

castingA3T的博客

01-09

3461

import numpy as np import pandas as pd df1=pd.DataFrame({'a':[1,np.nan,5,np.nan], 'b':[np.nan,2,np.nan,6], 'c':range(2,18,4)}) df2=pd.DataFrame({'a':[5,4,np.nan,3,7

pandas dataframe 字符映射为数字

kyle1314608的博客

12-07

3518

在机器学习中对于有序的类别型变量可以不采用onehot编码，直接使用有序数字代替即可，这个目的可以在pandas中使用map方法实现。 import pandas as pd 创建数据框 raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 'last_name': ['Miller', 'J...

特征锦囊：对有序类别特征进行映射处理

Pysamlam的博客

03-01

209

今日锦囊特征锦囊：对有序类别特征进行映射处理???? Index直接上代码???? 直接上代码有些算法对有序分类变量(ordinal feature)的解释还是不行的，我们需要将其转为整型数值。unfortunately，并没有能够直接调用的方法来自动得到正确顺序的有序分类变量。因此，我们要自己定义映射函数，把带有“顺序属性”的类别变量进行映射，转化成数值型变量。比如下面的案例，这4个变量（特征）中，【尺寸】...

pandas 将字符串映射为数字的方法

白水的博客

03-27

7030

在有些数据集中，有些数据变量用字符串表示，但为了方便处理，往往想转换为好处理的格式，这时候不一定要用one hot进行编码，也可以直接转成整数： test_df["xx"] = pd.factorize(test_df["xx"])[0].astype(int) 效果gift_cards["user_id"] = pd.factorize(gift_cards["user_id"])[0].astype(int)： user_id item_id ratings

pandas处理分类变量的方法

阿斯达克

04-23

3834

在做预测分类的任务中，如果出现了分类变量，要对其进行一些处理，例如 sex 【男，女】城市【北京，上海，广州，深圳】颜色【red, blue】在对这些分类变量处理的时候要注意以下两点原则离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,...

pandas factorize实现将字符串特征转化为数字特征

09-18

在数据处理中，将分类变量从字符串转换为数字是一种常见的需求，尤其是在机器学习模型训练中。分类变量如性别、职业等，它们的值通常是文本格式，而大多数机器学习模型无法直接处理这些非数值类型的数据。因此，需要...

对pandas数据判断是否为NaN值的方法详解

09-19

了解如何判断Pandas中的数据是否为NaN值是非常重要的技能。在本篇文章中，我们将深入探讨几种判断Pandas数据是否为NaN值的方法。首先，`pd.isnull()` 是Pandas库中用于检查数据是否为NaN的一个内置函数。这个函数...

Pandas映射（转化）dataframe中的布尔值True和False值到1和0数值、使用astype函数

data+scenario+science+insight

03-09

2298

Pandas映射（转化）dataframe中的布尔值True和False值到1和0数值、使用astype函数

pandas 类别转化为数字

weixin_37763484的博客

12-07

2019

pandas 类别转化为数字的三种方法

数据预处理：分类和顺序变量转化为数值型数据

sinat_41928169的博客

05-21

3655

分类数据和顺序数据要参与模型计算，通常都会转化为数值型数据。当然，某些算法是允许这些数据直接参与计算的，例如决策树、关联规则等。真值转换要将非数值型数据转换为数值型数据的最佳方法是：将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态，其中的真值可通过True、False或0、1的方式来表示。这种标志转换的方法有时候也称为真值转换。代码如下： import pandas as pd # 导入pandas库 from sklearn.preprocessing import

DataFrame列类型转换为category类别类型

元气满满晨

01-13

9358

DataFrame: fmri 原：region object 目标：region category fmri['region']= fmri['region'].astype('category') 注意：astype不是原地操作，需要重新赋值

dataframe对类别型和数值型数据分别进行可视化操作

leokingszx的博客

12-27

2641

对类别型数据进行可视化操作： def categoryVisualizationFunc(featurename): # 接收一个数字：1~1138，category feature对应的字段名称从index_category_arr中选取 numdf = pd.DataFrame(train[featurename]) numfq_ndarray = numdf.groupby(...

python dataframe根据变量类型选取变量

weixin_30556161的博客

08-09

1138

根据变量类型选取变量用到的函数：dataframe.select_dtypes(include=None,exclude=None) 需要注意的是选择所有数值型变量用np.number 选择字符型变量用object 转载于:https://www.cnblogs.com/mango-lee/p/9450792.html...

pandas将类别属性转化为数值属性的方法

chenpe32cp的博客

07-19

3万+

原文地址离散特征的编码分为两种情况： 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 使用pandas可以很方便的对离散型特征进行one-hot编码import pandas as pd df = pd.Data

使用pandas把某一列的字符值转换为数字

CSDN_LYY的专栏

11-06

3万+

使用map的方法就可以实现把某一列的字符类型的值转换为数字。 class_mapping = {'A':0, 'B':1} data[class] = data[class].map(class_mapping) 首先定义一个字典，然后使用map方法就可以把某一列的字符类型的值转换为数字。以上就是对使用pandas把某一列的字符值转换为数字的认识。 ...

python数据处理:对类别Category进行编码(转化为数值)