机器学习之特征工程{数据的预处理}

是在特征抽取之后进行【也可以直接理解为异常值的处理

参数(对谁处理):二位数组

特征预处理:对数据进行预处理,通过特定的统计方法(数学方法)将数据转换成算法要求的数据

 

                   大致可分为三类:数值类型数据,类别型数据,时间类型  【两种处理结果:前后特征值个数不变,特征值改变;前后特征值个数改变,特征值也改变

  •                    数值类型一般进行的是标准缩放【归一化,标准化】
  •                     类别型数据:one-hot编码
  •                     时间类型:时间的切片

sklearn特征处理的API:    sklearn.preprocessing

sklearn.preprocessing.MinMaxscaler

     

  1. 归一化目的:使得一个特征对最总结果不会造成影响   缺点:如果存在异常点,异常点对最大值和最小值影响太大,导致最终结果不能用。当一个属性的值的最大值与最小值的差距太大,就会覆盖别的特征的效果,为了避免对最终结果的影响,所以要进行归一化;

 

  1. 标准化:通过对原始数据进行变换,把数据变换到均值为0,标准差为1范围内。

表转化API:sklearn.preprocessing.StandardScaler

比较:

对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变

对于标准化来说:如果出现异常点,由于具有一定数量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

标准化在将来的预处理中是用的最多的,因为在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景

3.缺失值的处理

通常在pandas重进行,df.dropna()删除,      df.fillna() 填补 【平均值,中位数,以行或列进行,一般按行进行】   

                                     df.replace('?',np.nan)    np.nan为float类型

参考:https://blog.csdn.net/weixin_38168620/article/details/79596798

sklearn中对缺失值处理的API:sklearn.proprocessing.Imputer

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值