数据分析面试题（31~40）

bb8886

于 2024-03-26 10:30:45 发布

阅读量1k

点赞数 16

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/bb8886/article/details/137008764

版权

数据分析专栏收录该内容

15 篇文章 9 订阅

订阅专栏

31、K-means、 K-means 算法的优缺点。

①K-means是一种常用的聚类算法，适用于处理大规模数据集。其主要思想是将数据集中的样本划分为K个簇，使得同一簇内的样本相似度较高，不同簇之间的样本相似度较低。

②优点

1、简单而直观：K-means算法简单易懂，实现简单，计算速度快。

2、可解释性强：K-means算法生成的簇中心代表了聚类的中心，易于解释和理解。

3、可扩展性好：K-means算法适用于大规模数据集，并且在处理大型数据集时具有较高的效率。

③缺点

1、需要预先指定簇数K：K-means算法需要事先知道簇的数量，这在某些情况下可能是困难的。

2、对初始中心点敏感：K-means算法对初始中心点的选择敏感，不同的初始中心点可能会导致不同的聚类结果。

3、对异常值敏感：K-means算法对异常值敏感，异常值可能会影响聚类结果，导致簇的形状不均匀。

4、仅适用于凸形簇：K-means算法假设簇是凸形状的，对非凸形状的簇效果不佳。

32、辛普森悖论，以及如何避免这种现象？

①辛普森悖论是指在某种条件下观察到的现象与在相反的条件下观察到的现象相矛盾的情况。（举例：年轻患者组中，手术治疗的成功率可能会高于药物治疗，在老年患者组中，药物治疗的成功率可能会高于手术治疗。将所有年龄段的患者数据合并起来分析，可能会得出一个错误的结论，即手术治疗的成功率低于药物治疗）

②如何避免辛普森悖论？

1、分层分析：对数据进行分层分析，观察不同子群体之间的关系，而不仅仅是总体的关系。这样可以更好地理解不同子群体的特点和趋势。

2、控制变量：在进行实验或研究时，控制可能影响结果的其他变量，以确保观察到的关系是真实的，而不是由于其他变量的影响而产生的。

3、深入理解数据：对数据进行更深入的探索和理解，包括探索不同子群体之间的差异，以及变量之间的复杂关系。这有助于更好地理解数据背后的真实情况。

4、谨慎解释结果：在解释数据分析的结果时，要谨慎对待可能存在的辛普森悖论，避免过于绝对或片面的解释，而是考虑到可能存在的不同子群体之间的差异。

33、说一下条件概率的概念

条件概率是指在给定某一条件下另一个事件发生的概率。它表示了事件A在事件B已经发生的条件下发生的可能性。P(A|B)：在B条件下A的概率。P(A|B)=P(A∩B)/P(B)

34、说一下SQL窗口函数并举例

①窗口函数是类似于可以返回聚合值的函数，例如SUM()，COUNT()，MAX()。但是窗口函数又与普通的聚合函数不同，聚集函数通过对数据进行分组，仅能够输出分组汇总结果，而原始数据则无法展现在结果中。而窗口函数则可以同时将原始数据和聚集分析结果同时显示出来。基本语法为：

<窗口函数> over (partition by <列清单>order by <列清单>)

partition by用来圈定所要进行操作的对象的范围，order by用来指定按照哪列、何种顺序进行排序。通过partition by分组后的记录集合叫做窗口，此处的窗口表示范围。

②假设有一个表 sales 包含 department_id、employee_id 和 sale_amount 字段，我们想要计算每个部门的销售总额，并给出每个员工的销售额排名。

SELECT 
    department_id,
    employee_id,
    sale_amount,
    SUM(sale_amount) OVER (PARTITION BY department_id) AS department_total_sales,
    RANK() OVER (PARTITION BY department_id ORDER BY sale_amount DESC) AS employee_sales_rank
FROM 
    sales;

35、数据分析必备哪些技能？

①数据处理和清洗。能够使用工具如Python的Pandas、R等进行数据清洗和处理，包括缺失值处理、异常值检测、数据转换等。

②数据可视化。具备使用图表和可视化工具如Matplotlib、Seaborn、Plotly等将数据呈现为易于理解和解释的形式的能力。

③统计分析。具备基本的统计分析知识，包括描述性统计、概率分布、假设检验、回归分析等，能够运用统计方法对数据进行分析和解释。

④机器学习。了解常见的机器学习算法，如线性回归、逻辑回归、决策树、随机森林、支持向量机等，能够使用机器学习模型进行数据建模和预测。

⑤数据库和SQL。熟悉关系型数据库和SQL语言，能够进行数据提取、查询和分析。

⑥编程能力。具备一定的编程能力，能够使用编程语言如Python、R等进行数据分析和处理。

36、你对数据分析的认知是什么，那你是如何学习数据分析的？（除上课外）

①我对数据分析的认知是，数据分析是一种通过收集、清洗、处理和解释数据来获取见解和支持决策的过程。它涉及使用统计分析、机器学习和数据可视化等技术，从数据中发现模式、趋势和关联，并将这些信息转化为有用的见解和行动建议。

②除了课堂学习外，我学习数据分析的主要方法包括：

1、自学：通过在线课程、教科书、博客文章、视频教程等自学数据分析相关知识和技能。

2、实践项目：我会参与一些实际的数据分析项目，通过实际操作和解决实际问题来提升自己的数据分析能力。

3、阅读文献：我会阅读与数据分析相关的学术文献、行业报告和案例研究，了解最新的研究成果和应用实践，从中获取启发和灵感。