特征工程

特征工程是机器学习中的关键步骤,通过将原始数据转化为更具有预测价值的特征,提高模型的预测准确性。本文介绍了scikit-learn库在特征处理上的作用,包括其在数据预处理、One-hot编码、文本特征抽取等方面的功能,并提供了相关的代码示例。
摘要由CSDN通过智能技术生成

数据集的特征工程
机器学习中的重复值不需要去重
pandas是数据读取非常方便以及基本的处理格式的工具
sklearn对于特征的处理提供了强大的接口
在这里插入图片描述
一、特征工程的定义
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。
二、特征工程的意义
直接影响预测结果
三、scikit-learn工具介绍
1、python语言的机器学习工具
2、包含许多知名的机器学习算法的实现
3、文档完善,容易上手,丰富的API,使其在学术界颇受欢迎
4、目前稳定版本0.18
四、scikit-learn的安装
命令 pip install Scikit-learn
注意:安装scikit-learn需要已经安装numpy、pandas等库
五、scikit-learn的导入
import sklearn
六、scikit-learn可以做的事情
在这里插入图片描述
六、One-hot编码的原理
将每个类别生成一个布尔列,这些列中只有一列可以为每个样本取值1。因此,术语一个热编码
在这里插入图片描述
七、特征抽取(特征抽取对文本等数据进行特征值化ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值