数据分析指北 - 基础(数据来源及轮廓)

最新推荐文章于 2022-02-07 20:45:18 发布

havef

最新推荐文章于 2022-02-07 20:45:18 发布

阅读量164

点赞数

本文链接：https://blog.csdn.net/havef/article/details/98864939

版权

本文强调了在数据分析前了解数据来源和分布轮廓的必要性。通过实例解释了不清楚数据分布可能导致错误的分析结果，并引用企鹅智酷的城市迁移报告作为良好实践的案例，展示了如何细致处理数据来源和描述性统计分析。

摘要由CSDN通过智能技术生成

数据分析指北 - 基础(数据来源及轮廓)

有必要搞清楚数据的原始出处以及大致轮廓（分布）。

640?wx_fmt=jpeg

Photo by Samuel Zeller on Unsplash

微信公众号：数据分析指北

搞清数据原始出处
搞清数据轮廓（分布）
一个好例子
编外

搞清数据原始出处

在做分析之前，要先准备好最最原始的数据，你需要知道原始数据的采集过程，以及是否做过相关简化。这个问题比较重要，如果想要挖水喝, 那么你需要确定你挖的地方究竟有没可能有水。如果在一堆不靠谱的数据上分析半天，那么别想得出什么有用的结论。在计算机科学里面有个词专门对这件事进行描述，就是GIGO（garbage in, garbage out 垃圾进去，垃圾出来）。

如果你要和别人合作，这件事就更为重要，有了相同的原始数据，你们才会有相同的统计或计算口径。

搞清数据轮廓（分布）

在你获得数据之后，要对数据进行一次粗略的体检（仍然是在保证数据里面少一点垃圾）。在体检过程中，你需要大致了解数据中的各个指标是怎么分布的，这些分布会不会对你问题的解决造成影响。这一点尤为重要。

举个机器学习（如果不懂这个词，请暂时忽略）里面的经典例子，
假如你有10000个患者同一肿瘤部位的图片，并且知道每个患者的肿瘤是良性还是恶性，你想根据这些图片找到一个神奇的公式，能直接通过查看图片得知其他患者的肿瘤是否恶性。
你经过各种试验，得到了一个准确率为90%的办法。还不错, 对吗?

但事实上，假如这10000个患者中只有100个患者的肿瘤是恶性的，我完全可以很容易地粗制滥造出一个超过你的方法——我的方法推断任何患者的肿瘤都是良性的，那么，我的方法在原来10000个患者那里试验的准确率是 (10000–100)/10000=99%。

这就是没有搞清楚数据分布就草草动手的结果。

再举一例，传说某国国防部想研究如何通过图片识别树后的坦克，他们收集了很多不同的照片作为试验样本，终于得到了一个方法，可以识别出含有坦克的图片。但在实际运用中却发现这个方法行不通。原来，因为试验样本的问题，凑巧有坦克的样本照片大部分是阴天，没有坦克的大部分是晴天，之前的方法只是通过图片的明亮区分阴晴而已。

一个好例子

企鹅智酷在一周前发表的 二线城市 “抢人”背后：中国城市人群迁移意向报告 就是一个正面例子。

他的问题是

北上广深之外，
哪些城市是潜在的人才磁铁？
“我要离开吗？”
“在一线城市的辛苦拼搏，和三四线城市的相对安逸之间，是否存在一个折中的选择？”

先不管结论，看一下他的数据来源说明以及细化问题的过程

640?wx_fmt=png

数据来源说明以及细化问题的过程

他的数据分布，考虑到了调研谁，男女是否平衡，调研的主要城市，还有和问题比较强相关的房产事宜，如下图所示：

640?wx_fmt=png

样本描述

编外

朋友有一次问我，数据分析究竟能做什么呀？你是不是在介绍数据分析相关人员的日常工作啊？

这一部分的说明我之前的确忽略了，甚至对这个问题有点惊讶。 (难道有数据分析不能做的吗? 大误) 我不是在介绍数据分析相关人员的工作，而是觉得，数据分析是个通用性的技能，而且是一个非常重要的技能，比如上面企鹅智酷中的问题，这也许是每一位在外漂过的人都考虑过的问题吧。不同的是，有人自己蒙头做了选择，有人问了朋友, 爸妈，如果能找到相关数据的话，你也可以试着通过估算解决这个问题。

回头聊

转发或赞赏？

640?wx_fmt=png