数据分析基础面试题

本文详细介绍了数据分析的基础知识,包括同比与环比的概念、数据分析流程、异常值处理方法、数据规约的原理与实践,以及pandas中数据合并的四种方式。此外,还讨论了数据规范化的重要性及计算公式,列举了缺失值处理和统计量分析中的常见方法,如均值、中位数、标准差等,是准备数据分析面试的宝贵参考资料。
摘要由CSDN通过智能技术生成

数据分析

1.同比与环比表示什么

  • 同比:与历史同时期比较,就是与不同年份的同一时期作比较
    • 例如:2019年7月份与2018年7月分相比
  • 环比:与上一统计段比较,就是与前一个相邻的时期作比较
    • 例如:2019年7月分与2019年6月份相比

2.阐述一个数据分析的主要流程(例子:航空客户价值分析)

​ 业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

在这里插入图片描述

3.如何进行异常值处理

​ 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。

异常值处理方法 方法描述
删除含有异常值的记录 直接将含有异常值的记录删除
视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理
平均值修正 可用前后两个观测的平均值修正该异常值
不处理 直接在具有异常值的数据上进行挖掘建模

4.什么是数据规约?如何进行数据规约

​ 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

​ 数据规约的意义在于:

-  降低无效、错误数据对建模的影响,提高建模的准确性
  • 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
  • 降低储存数据的成本

数据规约分为属性规约和数值规约

属性规约常用的方法

属性规约方法 方法描述 方法解析
合并属性 将一些旧属性合为新属性 初始属性集:{A1,A2,A3,B1,B2,C}
{A1,A2,A3} ——>A
{B1,B2} ——>B
---->规约后属性集:{A,B,C}
逐步向前选择 从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
{} —>{A1} —>{A1,A4}
---->约束后属性集:{A1,A4,A6}
逐步向后选择 从一个空属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,直到无法选择出最差属性为止或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
—>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6}
---->约束后属性集:{A1,A4,A6}
决策数归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值