机器学习之特征工程

特征工程是机器学习中至关重要的一环,它涉及到数据的预处理、清洗和转换,以提高模型预测效果。良好的特征能提升模型的灵活性,有时甚至只需要简单的模型就能取得好成绩。实际工作中,大部分时间可能都用于数据处理,如数据清洗和业务分析,寻找关键特征。特征工程的影响因素包括模型选择和可用数据质量。在特征工程中,数据采集、格式化、清洗和采样平衡是核心步骤,尤其在面对正负样本不平衡问题时,需采取相应策略来调整数据集。
摘要由CSDN通过智能技术生成

#特征工程

##一、简介

​ 特征是指数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

##二、特征工程的意义:

​ 1. 更好的特征意味着更强的灵活性

​ 2. 更好的特征意味着只需要简单模型

3. 更好的特征意味着更好的结果

##三、工作应用

​ 工作中可能70%的时间处理数据,30%的时间建模、模型状态评估
算法、模型的研究是一些算法专家、专业人员在做
大部分人的工作
跑数据,数据库搬砖
数据清洗,数据清洗,数据清洗…
业务分析,分析case, 找特征,找特征…
一招LR打天下,LogisticRegressor逻辑斯蒂回归

##四、影响预测结果好坏的因素

​ 1. 模型的选择
KNN、线性回归、领回归,Lasso、逻辑斯蒂回归、SVM、决策树、贝叶斯、Kmeans……
2. 可用的数据
特征的提取

##五、特征工程的重要环节

​ 数据采集,考虑哪些数据有用
数据格式化, 确定存储格式,例如时间格式、int、float等
数据清洗(data cleaning)
错误数据:例如人身高5m,这样的数据无论是否

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东木月

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值