【机器学习】特征工程 - 字典特征提取_机器学习字典

本文介绍了如何使用scikit-learn的DictVectorizerAPI从字典形式的原始数据中提取数字特征,用于机器学习模型。它演示了数据转换过程,以及如何获取和理解特征名字。同时,文章也提到了学习黑客和网络安全的入门路径。
摘要由CSDN通过智能技术生成
字典特征提取

特征工程就是从「原始数据」中提取「特征」,以供「算法」和「模型」使用。

简单来说就是将任意数据(比如文本和图像)转换为可用于机器学习的数字特征。

一、特征提取API

sklearn.feature_extraction 是用来提取特征的 API 。

sklearn.feature_extraction.DictVectorizer(sparse=True)

  • DictVectorizer.fit_transform( data ):接收字典类型的原始数据,返回提取的数字特征(sparse矩阵)
  • DictVectorizer.inverse_transform( data ):将提取的数字特征,转回原始数据。
  • DictVectorizer.get_feature_names_out():返回特征名字

一、提取数字特征

我们准备一个字典类型的数据,然后「提取」数字特征。

from sklearn import feature_extraction

# 原始数据(字典)
old_data = [
    {'name': "张三"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值