机器学习2---数据的特征工程之特征抽取

数据集

机器学习常用数据集

在这里插入图片描述

数据集的结构组成

在这里插入图片描述

特征工程

定义:特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。特征工程包括数据的特征抽取特征处理特征选择降维等。

特征工程常用工具Scikit-learn

Scikit-learn是python语言的机器学习工具,包括许多知名的机器学习算法的实现,文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。

pip install Scikit-learn  # 命令行
import sklearn

注:安装Scikit-learn需要numpy、pandas等库。

数据特征抽取

特征抽取针对非连续型数据,对文本等进行特征值化,特征值化是为了使计算机更好的理解数据。

Scikit-learn特征抽取API

sklearn.feature_extraction

字典特征抽取
  1. 作用:对字典数据进行特征值化
  2. 类:sklearn.feature_extraction.DictVectorizer
  3. DictVectorizer语法:
    DictVectorizer(sparse = True,……)
    (1)DictVectorizer.fit_transform(X)
    X:字典或者包含字典的迭代器;
    返回值:返回sparse矩阵。
    (2)DictVectorizer.inverse_transform(X)
    与(1)的操作相反,X是array数组或者sparse矩阵;返回转换之前数据格式。
    (3)DictVectorize.get_feature_names():返回类别名称
from sklearn.feature_extraction import DictVectorizer

# 1. 实例化 DictVectorizer
dict = DictVectorizer()
# 2. 调用 fit_transform 方法输入数据并转换,返回sparse矩阵
data = dict.fit_transform([{
   'city': '北京', 'temperature': 100},
                           {
   'city': '上海', 'temperature': 60},
                           {
   'city': '深圳', 'temperature': 30}])

print(data)

运行结果(sparse矩阵:节约内存,方便读取处理):
在这里插入图片描述
若实例化时,设置sparse=False:

from sklearn.feature_extraction import DictVectorizer

# 1. 实例化Dic
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值