数据分析6 面试题汇总

最新推荐文章于 2024-01-24 22:39:02 发布

ac121388

最新推荐文章于 2024-01-24 22:39:02 发布

阅读量1.6k

点赞数 1

文章标签：数据分析数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ac121388/article/details/121436310

版权

这篇博客总结了数据分析面试中常见的问题，涉及机器学习中的决策树及其优缺点，K-means聚类算法的原理与应用，以及A/B测试的流程和效果评价方法。此外，还提到了数据异常值检测和业务分析策略。

摘要由CSDN通过智能技术生成

一机器学习

解决过拟合的方法：

1 增加样本数量

2 简化模型，决策树减少层数

3 使用深度学习

监督学习：决策树，随机森林，KNN，支持向量机，朴素贝叶斯

无监督：k-means

决策树：

决策树是一种对样本进行分类的树形结构，也能够进行回归预测。决策树主要包含3种结点（根结点：初始结点；叶节点：最终分类结果结点；内结点：树内部进行判断的条件结点-即特征）在决策树中，每个样本都只能被一条路径覆盖。

决策树有三种生成算法分别是ID3、C4.5、CART，分别基于信息增益、信息增益比、基尼指数划分的。

决策树的优点：①易于理解和解释、可以可视化分析，容易提取出规则。②速度快、计算量相对较小。③可以处理连续和种类字段 f 决策树的缺点：①数据集特征很多时，容易过拟合。②忽略了特征之间的相关性。

n_estimators ：指定随机森林中的分类器的个数，默认为10。一般来说n_estimators 太小容易欠拟合，太大计算量大，故需要参数调优选择一个适中的数值；

oob_score：是否采用袋外误差来评估模型，默认为 False；

criterion ：及CART树划分对特征的评价标准，默认我基尼指数，还可以选择信息增益；

参数

K-means
1. 算法原理：k-means 算法是一种无监督聚类算法，即其思想是将样本全部分成K类，使得类间样本的距离足够大，而使得类内的样本距离足够小。
2. 过程：
首先选择k个点作为初始点，随后将每个点指派到最近的质心，形成k个簇并重新计算每个簇的质心，直到簇不发生变化或达到最大迭代次数。
优点：原理简单、收敛速度快，聚类效果较优、算法解释度比较强。
缺点：K值的选取不好把握、非凸数据集难以收敛、采用迭代方法容易得到局部最优结果、对噪声、异常值比较敏感。
实际应用点：潜在的簇是凸面，且簇之间区别明显，大小相近，适用于大数据。

拍脑袋法

一个非常快速的，拍脑袋的方法是将样本量除以2再开平方出来的值作为K值，具体公式为：

K≈n/2−−−√

肘部法则（Elbow Method）

Elbow Method ：Elbow意思是手肘，如下图左所

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。