数据分析6 面试题汇总

这篇博客总结了数据分析面试中常见的问题,涉及机器学习中的决策树及其优缺点,K-means聚类算法的原理与应用,以及A/B测试的流程和效果评价方法。此外,还提到了数据异常值检测和业务分析策略。
摘要由CSDN通过智能技术生成

 一 机器学习

解决过拟合的方法:

1 增加样本数量

2 简化模型,决策树减少层数

3 使用深度学习

监督学习:决策树,随机森林,KNN,支持向量机,朴素贝叶斯

无监督:k-means

决策树:

        决策树是一种对样本进行分类的树形结构,也能够进行回归预测。决策树主要包含3种结点(根结点:初始结点;叶节点:最终分类结果结点;内结点:树内部进行判断的条件结点-即特征)  在决策树中,每个样本都只能被一条路径覆盖。

    决策树有三种生成算法分别是ID3、C4.5、CART,分别基于信息增益、信息增益比、基尼指数划分的。

    决策树的优点:①易于理解和解释、可以可视化分析,容易提取出规则。②速度快、计算量相对较小。③可以处理连续和种类字段                                                                                                                                                                                                                                                                           f      决策树的缺点:①数据集特征很多时,容易过拟合。②忽略了特征之间的相关性

n_estimators : 指定随机森林中的分类器的个数,默认为10。一般来说n_estimators 太小容易欠拟合,太大计算量大,故需要参数调优选择一个适中的数值;

oob_score: 是否采用袋外误差来评估模型,默认为 False;

criterion :及CART树划分对特征的评价标准,默认我基尼指数,还可以选择信息增益;
 

参数

K-means
1. 算法原理:k-means 算法是一种无监督聚类算法,即其思想是将样本全部分成K类,使得类间样本的距离足够大,而使得类内的样本距离足够小。
2. 过程:
    首先选择k个点作为初始点,随后将每个点指派到最近的质心,形成k个簇并重新计算每个簇的质心直到簇不发生变化或达到最大迭代次数
    优点:原理简单、收敛速度快,聚类效果较优、算法解释度比较强。
    缺点:K值的选取不好把握、非凸数据集难以收敛、采用迭代方法容易得到局部最优结果、对噪声、异常值比较敏感。
    实际应用点:潜在的簇是凸面,且簇之间区别明显,大小相近,适用于大数据。

拍脑袋法

一个非常快速的,拍脑袋的方法是将样本量除以2再开平方出来的值作为K值,具体公式为:

K≈n/2−−−√

肘部法则(Elbow Method)

Elbow Method :Elbow意思是手肘,如下图左所

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值