数据分析基础面试题

最新推荐文章于 2024-01-10 10:20:12 发布

Han_l_w

最新推荐文章于 2024-01-10 10:20:12 发布

阅读量4.6k

点赞数 27

分类专栏：面试题文章标签：数据分析

本文链接：https://blog.csdn.net/Oldlw/article/details/103833302

版权

本文详细介绍了数据分析的基础知识，包括同比与环比的概念、数据分析流程、异常值处理方法、数据规约的原理与实践，以及pandas中数据合并的四种方式。此外，还讨论了数据规范化的重要性及计算公式，列举了缺失值处理和统计量分析中的常见方法，如均值、中位数、标准差等，是准备数据分析面试的宝贵参考资料。

摘要由CSDN通过智能技术生成

数据分析

业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

在这里插入图片描述

在数据预处理时，异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。

在大数据集上进行复杂的数据分析和挖掘需要很长的时间，数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

数据规约的意义在于：

-  降低无效、错误数据对建模的影响，提高建模的准确性

数据规约分为属性规约和数值规约

属性规约方法	方法描述	方法解析
合并属性	将一些旧属性合为新属性	初始属性集：{A1,A2,A3,B1,B2,C} {A1,A2,A3} ——>A {B1,B2} ——>B ---->规约后属性集：{A,B,C}
逐步向前选择	从一个空属性集开始，每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止	初始属性集：{A1,A2,A3,A4,A5,A6} {} —>{A1} —>{A1,A4} ---->约束后属性集：{A1,A4,A6}
逐步向后选择	从一个空属性集开始，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去，直到无法选择出最差属性为止或满足一定阈值约束为止	初始属性集：{A1,A2,A3,A4,A5,A6} —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6} ---->约束后属性集：{A1,A4,A6}
决策数归纳	利用决策树的归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没有出现在这个决策树上的属性均可认为是无关属性，因此将这些属性从初始集合中删除，就可以获得一个较优的属性子集