python 离散系数_17种将离散特征转化为数字特征的方法

作者|Samuele Mazzanti编译|VK来源|Towards Data Science原文链接:https://towardsdatascience.com/beyond-one-hot-17-ways-of-transforming-categorical-features-into-numeric-features-57f54f199ea4“你知道哪种梯度提升算法?”“Xgboost,...
摘要由CSDN通过智能技术生成
作者|Samuele Mazzanti
编译|VK
来源|Towards Data Science
原文链接: https:// towardsdatascience.com/ beyond-one-hot-17-ways-of-transforming-categorical-features-into-numeric-features-57f54f199ea4

2ec8f1971aed1658405dc6aa1a165770.png

“你知道哪种梯度提升算法?”

“Xgboost,LightGBM,Catboost,HistGradient。”

“你知道哪些离散变量的编码?”

“one-hot”

在一次数据科学面试中听到这样的对话我不会感到惊讶。不过,只有一小部分数据科学项目涉及机器学习,而实际上所有这些项目都涉及离散数据

离散变量的编码是将一个离散列转换为一个(或多个)数字列的过程。

这是必要的,因为计算机处理数字比处理字符串更容易。为什么?因为用数字很容易找到关系(比如“大”、“小”、“双”、“半”)。然而当给定字符串时,计算机只能说出它们是“相等”还是“不同”。

然而,尽管离散变量的编码有影响,但它很容易被数据科学从业者忽视。

离散变量的编码是一个令人惊讶的被低估的话题。

这就是为什么我决定深化编码算法的知识。我从一个名为“category_encoders”的Python库开始(这是Github链接:https://github.com/scikit-learn-contrib/category_encoders)。 使用它非常简单:

!pip install category_encoders

import category_encoders as ce

ce.OrdinalEncoder().fit_transform(x)

这篇文章是对库中包含的17种编码算法的演练。对于每种算法,我用几行代码提供了简短的解释和Python实现。其目的不是要重新发明轮子,而是要认识算法是如何工作的。

并非所有编码都是相同的

我根据17种编码算法的一些特点对它们进行了分类。类似决策树:

c31e687acad1baa90beb2bca2b120a9d.png

分割点为:

  • 监督/无监督:当编码完全基于离散列时,它是无监督的。如果编码是基于原始列和第二列(数字)的某个函数,则它是监督的。
  • 输出维度:分类列的编码可能产生一个数值列(输出维度=1)或多个数值列(输出维度>1)。
  • 映射:如果每个等级都有相同的输出-无论是标量(例如OrdinalEncoder)还是数组(例如onehotcoder),那么映射是唯一的。相反,如果允许同一等级具有不同的可能输出,则映射不是唯一的。

17种离散编码算法

1.OrdinalEncoder

每个等级都映射到一个整数,从1到L(其中L是等级数)。在这种情况下,我们使用了字母顺序,但任何其他自定义顺序都是可以接受的。

sorted_x = sorted(set(x))
ordinal_encoding = x.replace(dict(zip(sorted_x, range(1, len(sorted_x) + 1))))

6559313ed9195d0f730c0eb7463e3bf5.png

你可能认为该编码是没有意义的,尤其是当等级没有内在顺序的时候。你是对的!实际上,它只是一种方便的表示,通常用于节省内存,或作为其他类型编码的中间步骤。

2.CountEncoder

每个等级都映射到该级别的观察数。

count_encoding = x.replace(x.value_counts().to_dict())

e8148a7e9a49c928fc9fa9a7b5651adf.png

这种编码可以作为每个级别的“可信度”的指标。例如,一个机器学习算法可能会自动决定只考虑其计数高于某个阈值的级别所带来的信息。

3.OneHotEncoder

编码算法中最常用的。每个级别映射到一个伪列(即0/1的列),指示该行是否携带属于该级别。

one_hot_encoding = ordinal_encoding.apply(lambda oe: pd.Series(np.diag(np.ones(len(set(x))))[oe - 1].astype(int)))

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要将Python离散点拟合成曲线,可以使用多项式拟合方法。在提供的代码中,有两个例子可以实现这个目标,他们都使用了numpy和matplotlib.pyplot库。 引用中的代码演示了如何使用polyfit函数进行多项式拟合。该函数的参数为输入的x和y坐标数据以及多项式的阶数。在这个例子中,使用了6阶多项式进行拟合。通过poly1d函数将多项式系数转化为多项式对象,并使用该对象计算拟合后的y坐标。最后,使用plot函数将拟合的曲线绘制出来。 引用和中的代码演示了另一拟合方法,使用polyfit函数计算多项式系数,然后使用poly1d函数将系数转化为多项式对象。然后,使用导函数和二阶导函数来计算曲率半径。最后,使用scatter函数将曲率半径绘制成离散点。 综上所述,你可以根据需要选择不同的方法进行离散点拟合成曲线的操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python曲线拟合笔记](https://blog.csdn.net/jacke121/article/details/122826478)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【机器学习】python实现离散点拟合曲线并求曲率半径](https://blog.csdn.net/mzy20010420/article/details/127995789)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值