类别变量的多热编码:encoding categorical variable to multihot embedding

本文介绍如何将类别或字符串类型的特征,如由逗号或竖线分隔的数据,转换为多热编码。这种转换在机器学习中常见,用于将非数值特征转化为可以输入模型的形式。
摘要由CSDN通过智能技术生成

需求:把类别或字符串类型的特征转化为多热编码,特征是逗号、竖线等方式分割

import numpy as np
import pandas as pd
from scipy import sparse


class MultiHotEncoder:
    """
    Encode categorical features as a multi-hot numeric array.

    Parameters
    ----------
    sep : string, default='|', the separation string.

    Attributes
    ----------
    categories_ : a dictionary of encoding results.

    Examples
    --------

    >>> enc = MultiHotEncoder()
    >>> X = ['red|green', 'green', 'red|yellow']
    >>> enc.fit(X)
    >>> enc.categories_
    {'red': 0, 'green': 1, 'yellow': 2}
    >>> enc.transform(['green', 'yellow|red', None, 'red|green|yellow'])
    array([[0., 1., 0.],
           [1., 0., 1.],
           [0., 0., 0.],
           [1., 1., 1.]])
    """

    def __init__(self, sep='|')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值