机器学习面笔试-数据篇

最新推荐文章于 2022-07-01 17:14:02 发布

西檬饭

最新推荐文章于 2022-07-01 17:14:02 发布

阅读量170

点赞数

分类专栏：机器学习文章标签：面笔试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23869697/article/details/82150427

版权

机器学习专栏收录该内容

41 篇文章 1 订阅

订阅专栏

1. 数据的预处理方法有哪些？

常用的有白化，去均值，归一化和PCA。
可参考这里。

2.数据的归一化方法有哪些？

常用的归一化方法：线性归一化和0均值标准化
线性归一化将数据转换到[0,1]之间：

X n o r m = X - X m i n X m a x - X m i n

$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$

0均值标准化，均值为0，方差为1的数据集:

z = x - μ σ

$z = \frac{x - \mu}{\sigma}$

μ μ $\mu$ 为数据的均值，

σ σ $\sigma$ 为数据的标准差
更多可阅读这里。

3.数据归一化的原因

要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。
有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化。
有些模型伸缩有与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏进行数据归一化。
补充：其实本质是由于loss函数不同造成的，SVM用了欧拉距离，如果一个特征很大就会把其他的维度dominated。而LR可以通过权重调整使得损失函数不变。

4.样本不均衡问题

可以通过上采样和下采样来解决，即多的样本通过取其中一部分，少的样本重复利用；
进行特殊的加权，如在Adaboost中或者SVM中过修改loss 函数，修改样本的权值，让少样本的更大权值；
采用对不平衡数据集不敏感的算法；
改变评价标准：用AUC/ROC来进行评价；
采用Bagging/Boosting/ensemble等方法；
考虑数据的先验分布；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。