机器学习:特征工程之特征提取

本文介绍了特征工程的概念和重要性,包括数据预处理如归一化和降维。接着详细讲解了特征提取,特别是针对文本数据,提到了sklearn.feature_extraction库中的DictVectorizer、CountVectorizer和TfidfVectorizer,解释了TF-IDF的重要性。
摘要由CSDN通过智能技术生成

第一部分:特征工程

一.概念

1.“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。
2.特征工程的过程:从数据中抽取出对预测结果有用的信息,通过专业的技巧进行数据处理,使特征能在机器学习算法中发挥更好的作用。
注:优质的特征往往描述了数据的固有结构。 最初的原始特征数据集可能太大,或者信息冗余,因此在机器学习的应用中,一个初始步骤就是选择特征的子集,或构建一套新的特征集,减少功能来促进算法的学习,提高泛化能力和可解释性。

二.意义

对数据进行特征工程,是为了获得有代表性的特征,只需用简单模型,得到更好的结果。

三.特征处理

对已有的数据进行运算达到目标的数据标准,特征预处理包括:单个特征和多个特征。
单个特征:归一化、标准化、缺失值;
多个特征:降维,如PCA。

第二部分:特征提取

一.特征抽取

将任意数据格式(例如文本和图像)转换为机器学习的数字特征。
很多特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述。其中sklearn.feature_e

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值