第17步 机器学习分类实战:特征工程(上)


前言

再一次给你们植入思想钢印:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
不要过度沉迷于什么高级模型、先进算法,数据质量好、特征提取到位,逻辑回归照样媲美深度学习,甚至吊打。

然而,现实是大家都在追求热点,单纯的逻辑回归发(灌水)不了好杂志,所以,都得学,都得会。
说了那么多,就是让你们重视数据收集、清洗和特征工程!!!

因此,怎么选择特征,选择什么特征来建模,已经上升到“工程”的高度,特征工程由此而来。它的目的在于最大限度地从原始数据中提取特征以供构建模型。


一、差异分析

这一步,让大家回到学习卫生统计学的苦逼岁月。还记得啥叫一类错误?t检验的使用条件是什么?方差分析的两两比较能用t检验么…

我们的例子是二分类的判别,所以是两组间的比较,还记得不:连续资料用的是t检验(正态分布)或者秩和检验(不满足t检验的要求),分类资料使用的是卡方检验。

(1)连续资料的差异分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jet4505

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值