做数据分析的9个原则

为啥要写这篇wiki?
最近在一个新项目中掉了不少坑,其中一项就是竞对数据分析,于是想做些总结并分享出来,既能让其他朋友少掉坑,也能让自己对此的认识更加深刻。

我本来先自己做了些总结,但随后意识到,我所碰到的问题一定不是什么新问题,一定有比我更专业的人早就做好了总结,于是google了一下,果不其然有很多发现,这些总结大多都聚焦于具体的数学分析方法、数据分析理论,虽然这些都不错,但却比较艰深晦涩。然而功夫不负有心人,通过调整搜索关键词,我终于找到了一篇数据分析一般性原则的总结,类似于我自己的总结是思维方式上的一些总结,但却远比我的总结全面,也更加通俗易懂,于是就想把它分享出来,相信能对数据分析的工作有些帮助。

下面并不是对这篇文章逐字逐句的翻译,它更多地是我基于自己的理解,用自己语言的一个转述,对原文感兴趣的同学可以看这里

做好数据分析的基本原则:
原则1:明确目标和方法
做数据分析前要清楚知道我们通过分析想回答什么问题,达成什么目标。此外我们还应该对我们要分析的数据有些基本了解,比如有些什么数据可用?数据是如何组织的?存储在哪里?我们有什么分析工具等等。磨刀不误砍柴工,先想清楚这些问题往往能让后面的工作更加聚焦和高效

原则2:了解数据是如何生成的
举个例子,比如你是Amazon的一名数据分析师,接受了一项任务来做订单分析。数据库里有张订单表,你可能需要考虑的是,这张订单表会保存未完成的订单吗?这张表的一条记录在网站上是如何生成的?如果用户创建了一个订单但是没有付款这张表里会有数据吗?这张表里每个字段具体是什么含义?

(我们在项目中的这个环节就掉了大坑,因为涉及具体的业务,此处省略1万字…​ )

原则3:检查数据的有效性
在整个分析过程不断地检查以确保数据有效性,这可以及早地发现问题。

比如,作者给出的一个例子是,他曾经帮一个朋友分析一个非常大的基于时间序列的数据集(~10G),分析的结果他直觉上觉得不对,于是进一步深挖,按照日期对事件排序后,发现有两天没有任何数据,而这种情况本不应该出现。

(我们在原则2掉的那个大坑,如果遵循原则3也可以及早发现问题)

原则4:从不同角度对数据进行分析
首先需要了解的辛普森悖论,也就是有些趋势在子数据集中非常明显,但是当这些子数据集汇总在一起后,这个趋势却消失了。

一个例子:

如下表,这是加州伯克利大学1973年秋男女生的入学率数据,基于此,该大学被起诉性别歧视。
在这里插入图片描述
但是当我们结合性别和院系来看的话,我们就会发现很多院系的女生入学率是高于男生的:
在这里插入图片描述

所以在做数据分析的时候,需要谨记辛普森悖论,明白有时汇总的数据统计可能是有误导性的,我们需要从不同的角度来分析我们的数据

原则5:保持怀疑
除了要对数据的有效性做检查外,我们在整个分析的过程中都要保持一个怀疑的态度。如果有什么看起来不太对,那么在我们能将其解释清楚之前,就先不要继续往前分析了。

那么数据很多,我们到底要对哪些数尤其关注呢?结合在另外一个关于数据分析的文章学习到的要点就是:看大数、略小数、看关键指标、看异常数据.

(我们在这个环节又掉了坑,再次省略1万字​ )

原则6:像一个律师那样思考
一个好律师在准备他们的case时也会考虑他们的对手会怎么回应,类似地,我们也需要考虑我们的听众会问什么问题,通过提前对此做出准备,能让我们的工作更加令人信服,没人会愿意听到类似于“我不确定,我还没看那个”这样的回答

原则7:澄清我们的假设
做数据分析的时候,很多情况下我们往往无法获取足够的数据来做一个彻底,详尽的分析 — 这种情况下,我们一般要做一些条件假设。在share我们的分析结果的时候,我们需要明确地告知大家我们所做的条件假设。此外,我们还应该尽量地从与该分析相关的同学或者该领域的专家那寻求帮助,以确保我们所做得假设是不片面、符合逻辑的。

原则8:检查我们的工作结果
这个看起来很显而易见,但是由于项目工期,快速的变化,以及突发的需求等各种原因,很多人常常跳过这一步,但我想你的受众相对于一个快出产出的分析结果,他们更想要的是一个正确的分析结果。

(我们就是因为偶尔检查时发现了数据的不一致性才发现了原则5处提到的大坑,如果我们能早一点常态化这个检查,我们的工作会高效的多)

原则9:沟通
最后,在整个的分析过程中都应该和该分析相关的同学(尤其是老板)保持沟通,也许他根本就不关心小数点的精度,他可能只关心趋势。数据分析往往是为了解答某个问题的,而每个问题背后都有一群与之息息相关的同学(老板),所以和他们一起解决问题才是最关键的,千万别只是自己蒙头做分析, 别既没有得到应有的帮助又走偏了方向。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
如何数据分析 内部培训 2015.04 数据分析怎么全文共56页,当前为第1页。 目录 A、 数据分析哪些事儿 B、 数据处理 C、 数据分析 D、 数据展现 E、 报告撰写 数据分析怎么全文共56页,当前为第2页。 A、数据分析哪些事儿 数据分析是"神马" 数据分析六部曲 常用指标或术语 数据分析怎么全文共56页,当前为第3页。 数据分析是"神马" 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。 A、数据分析哪些事儿 ·数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析怎么全文共56页,当前为第4页。 菜鸟与数据分析师的区别 菜鸟会想 分析师会想 这张曲线图真好看,怎么的? 数据变化的背后真相是什么? 这些数据可以什么样的分析? 从哪些角度分析数据才系统? 高级分析的方法在这儿能用吗? 用什么分析方法最有效? 要多少张图表? 图表是否表达出有效的观点? 除了为数据添加文字说明还需说什么? 数据分析的目的达到了吗? 数据分析报告要写多少页? 数据分析报告有说服力吗? …… …… A、数据分析哪些事儿 他们主要的 区别就在于 目的是否明确 数据分析怎么全文共56页,当前为第5页。 数据分析师的基本素质 不论说话还是写文章,都要有条理,有目的,不可眉毛胡子一把抓,不分主次。 模仿主要是参考他人优秀的分析思路和方法。但不能:一直在模仿,从未超越过。 A、数据分析哪些事儿 数据分析怎么全文共56页,当前为第6页。 数据分析六步曲 一般数据分析用Excel可以完成,若高级数据分析,则需要使用数据分析工具,如SPSS Statistics等。 A、数据分析哪些事儿 数据分析怎么全文共56页,当前为第7页。 倍数一般是表示数量的增长或上升幅度,而不适用 A、数据分析哪些事儿 常用指标或术语 数据分析怎么全文共56页,当前为第8页。 B、数据处理 初识EXCEL & 数据准备 数据处理方式和技巧 数据处理原则 数据清洗 常用数据处理公式 数据分析怎么全文共56页,当前为第9页。 初识EXCEL B、数据处理 数据分析讲究的是原则、思考方法和解决方案,任何软件都只是一种工具,我们只要掌握并精通一种工具不足够了。这比什么软件都只懂但都只是略懂皮毛要好很多。本培训所涉及内容,均以Excel 2010为例。 数据分析怎么全文共56页,当前为第10页。 数据准备:对数据表的要求 B、数据处理 序号 要求 1 数据表由标明行和数据部分组成 2 第一行是表的列标题(字段名),列标题不能重复 3 第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列 4 数据表中不能有合并单元桥存在 5 数据表与其他数据之间应该留出至少一个空白行和一个空白列 6 数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式储存数据。 7 数据部分每一列的数据项,内容、格式统一。 数据分析怎么全文共56页,当前为第11页。 函数 函数是指定的数据按照一定的规则转化为需要的结果,规则也就是我们所用到的公式。 图表 图表的主要目的是为了表现数据、传递信息。 宏 宏是一个指令集,用来告诉Excel完成用户指定的动作。宏类似于计算机程序,但它是完全运行于Excel中的。 B、数据处理—数据准备 数据处理方式和技巧 数据分析怎么全文共56页,当前为第12页。 数据处理方式和技巧 F2编辑单元格 填充柄 Ctrl+D '+007,变成007的有效输入。 快速设置单元格格式:Ctrl+1 1/3的输入,0+空格+1/3 B、数据处理 数据分析怎么全文共56页,当前为第13页。 数据错误识别 错误符号 错误原因 #DIV/0! 除数为0 #N/A 函数或公式中没有可用的数值 #NAME? 在公式中使用了不能识别的文本 #NULL! 使用了不正确的区域运算符或引用的单元格区域的交集为空 #NUM! 公式或函数中某些数字有问题 #REF! 单元格引用无效 #VALUE! 在公式中使用了错误的数据类型 B、数据处理 数据处理方式和技巧 数据分析怎么全文共56页,当前为第14页。 数据处理原则 B、数据处理 数据分析怎么全文共56页,当前为第15页。 数据清洗 冻结窗格 自动筛选 快速隐藏 Ctrl+箭头键 F4的妙用,绝对引用和相对引用 重复数据处理 重复数据处理 1、使用COUNTIF函数 重复次数COUNTIF(A:A,A2) 第几次出现COUNTIF(A$2:A2,A2) B、数据处理 数据分析怎么全文共56页,当前为第16页。 2、用菜
如何数据分析 如何数据分析全文共50页,当前为第1页。 目录 一、数据分析那些事儿 二、数据处理 三、数据分析 四、数据展现 五、报告撰写 2/50 如何数据分析全文共50页,当前为第2页。 目录 二、数据处理 三、数据分析 四、数据展现 五、报告撰写 一、数据分析那些事儿 3/50 如何数据分析全文共50页,当前为第3页。 一. 数据分析那些事儿 数据分析六部曲 2 常用指标或术语 3 3 数据分析是"神马" 3 1 4/50 如何数据分析全文共50页,当前为第4页。 1、数据分析是"神马" 一. 数据分析那些事儿 5/50 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 如何数据分析全文共50页,当前为第5页。 1、数据分析是"神马" 一. 数据分析那些事儿 菜鸟与数据分析师的区别 菜鸟会想 分析师会想 这张曲线图真好看,怎么的? 数据变化的背后真相是什么? 这些数据可以什么样的分析? 从哪些角度分析数据才系统? 高级分析的方法在这儿能用吗? 用什么分析方法最有效? 要多少张图表? 图表是否表达出有效的观点? 除了为数据添加文字说明还需说什么? 数据分析的目的达到了吗? 数据分析报告要写多少页? 数据分析报告有说服力吗? …… …… 他们主要的 区别就在于 目的是否明确 6/50 如何数据分析全文共50页,当前为第6页。 1、数据分析是"神马" 一. 数据分析那些事儿 数据分析师的基本素质 不论说话还是写文章,都要有条理,有目的,不可眉毛胡子一把抓,不分主次。 模仿主要是参考他人优秀的分析思路和方法。但不能:一直在模仿,从未超越过。 7/50 如何数据分析全文共50页,当前为第7页。 2、数据分析六部曲 一. 数据分析那些事儿 一般数据分析用Excel可以完成。 8/50 如何数据分析全文共50页,当前为第8页。 3、常用指标或术语 一. 数据分析那些事儿 倍数一般是表示数量的增长或上升幅度,而不适用 9/50 如何数据分析全文共50页,当前为第9页。 小结:数据分析那些事儿 数据分析是"神马"。 数据分析六部曲。 常用指标或术语。 ——提取信息、形成结论,对数据加以详细研究和概括总结的过程 我们已经初步了解数据分析的过程和执行步骤,接下来就要深入了解具体内容。 下一节:数据处理。 ——明确目的、数据收集、数据处理、数据分析、数据展现、报告撰写 10/50 如何数据分析全文共50页,当前为第10页。 目录 二、数据处理 三、数据分析 四、数据展现 五、报告撰写 一、数据分析那些事儿 11/50 如何数据分析全文共50页,当前为第11页。 二. 数据处理 初识EXCEL & 数据准备 数据处理方式和技巧 数据处理原则 数据清洗 常用数据处理公式 目录 12/50 如何数据分析全文共50页,当前为第12页。 1、初识EXCEL&数据准备 二. 数据处理 数据分析讲究的是原则、思考方法和解决方案,任何软件都只是一种工具,我们只要掌握并精通一种工具就足够了。这比什么软件都只懂但都只是略懂皮毛要好很多。 13/50 如何数据分析全文共50页,当前为第13页。 1、初识EXCEL&数据准备 二. 数据处理 序号 要求 1 数据表由标明行和数据部分组成 2 第一行是表的列标题(字段名),列标题不能重复 3 第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列 4 数据表中不能有合并单元桥存在 5 数据表与其他数据之间应该留出至少一个空白行和一个空白列 6 数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式储存数据。 7 数据部分每一列的数据项,内容、格式统一。 14/50 如何数据分析全文共50页,当前为第14页。 2、数据处理方式和技巧 二. 数据处理 函数 函数是指定的数据按照一定的规则转化为需要的结果,规则也就是我们所用到的公式。 图表 图表的主要目的是为了表现数据、传递信息。 宏 宏是一个指令集,用来告诉Excel完成用户指定的动作。宏类似于计算机程序,但它是完全运行于Excel中的。 15/50 如何数据分析全文共50页,当前为第15页。 2、数据处理方式和技巧 二. 数据处理 F2编辑单元格 填充柄 Ctrl+D Ctrl+R '+007,变成007的有效输入。 快速设置单元格格式:Ctrl+1 1/3的输入,0+空格+1/3 16/50 如何数据分析全文共50页,当前为第16页。 2、数据处理方式和技巧 二. 数据处理
Python数据分析期末复习归纳如下: 1. Python基础知识:掌握Python语言的基本语法、数据类型、运算符、流程控制语句等基本知识点,包括变量、列表、字典、字符串等。 2. Numpy库:了解Numpy库的基本使用方法,包括数组的创建、索引、切片、运算等,以及矩阵的操作、随机数生成、统计分析等。 3. Pandas库:掌握Pandas库的常用数据结构Dataframe和Series的创建、索引、切片、合并、统计分析等基本操作,以及数据清洗、缺失值处理、数据分组、透视表等高级操作。 4. Matplotlib库:掌握Matplotlib库的基本绘图方法,包括线性图、散点图、柱状图、饼图等,以及子图、标签、图例等高级绘图操作。 5. Seaborn库:了解Seaborn库的常用绘图方法,包括分布图、分类图、热力图等,以及调色板、样式等高级绘图操作。 6. Scikit-learn库:掌握Scikit-learn库的常用机器学习算法,包括分类、回归、聚类等,以及模型选择、模型评估等高级操作。 7. 数据挖掘流程:了解数据挖掘的基本流程,包括数据采集、数据清洗、特征提取、建模、模型评估等,以及在Python中的实现方法。 8. 数据可视化:掌握数据可视化的基本方法和原则,包括选择合适的图形、调整图形参数、添加标签等。 9. 数据分析实践:通过实际案例进行数据分析实践,熟悉数据分析过程中的一些常见问题和解决方法。 以上就是Python数据分析期末复习的归纳。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拥春飞翔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值