特征提取之字典特征提取

最新推荐文章于 2024-04-28 22:10:55 发布

布兹学长

最新推荐文章于 2024-04-28 22:10:55 发布

阅读量403

点赞数 3

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/booze_/article/details/121387849

版权

字典特征提取

首先要导入一个类：

from sklearn.feature_extraction import DictVectorizer

示例代码如下：

from sklearn.feature_extraction import DictVectorizer

# 字典特征提取
def dict_test():
    data = [
        {"prov": "江西", "temperature": 90},
        {"prov": "新疆", "temperature": 60},
        {"prov": "湖北", "temperature": 30}
    ]
    # 1.实例化一个转换器类
    # 实例化转换器类的时候，sparse默认是True,此时使用该实例对象调用fit_transform产生的是sparse稀疏矩阵（见图），如果实例化转换器类的时候，将sparse参数改为False,此时使用该实例对象调用fit_transform产生的是sparse密集矩阵（见图）
    # transfer =  DictVectorizer(sparse=False)
    transfer =  DictVectorizer()
    # 2.调用fit_transform()
    new_data = transfer.fit_transform(data)
    # 调用实例化对象的get_feature_names()方法可以返回特征值的名称
    print('特征名称：\n',transfer.get_feature_names())
    print('new_data:\n',new_data)
    # toarray()方法能将稀疏矩阵转换成密集矩阵
    print(new_data.toarray())

if __name__=="__main__":
    dict_test()

补充：

- toarray()方法能将稀疏矩阵转换成密集矩阵
- 调用上述代码的实例化对象的get_feature_names()方法可以返回特征值的名称

字典特征提取的返回结果类别是由one-hot编码产生的矩阵！
注意：实例化转换器类的时候，sparse默认是True,此时使用该实例对象调用fit_transform产生的是sparse稀疏矩阵（见图），如果实例化转换器类的时候，将sparse参数改为False,此时使用该实例对象调用fit_transform产生的是sparse密集矩阵（见图）

稀疏矩阵：

稀疏矩阵的好处就是可以将非零值，按位置表示出来，并且节省内存，是的加载效率更高，但是可读性不强
密集矩阵：

密集矩阵的好处就是可读性较强，但是数据量较大时，会产生较多的零值，占用内存空间