我数据分析的套路

原创 2017年05月06日 11:03:42

经常读公众号文章的,或者在知乎关注我的同学都知道,我十分喜欢通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的,我以前写过很多数据分析的文章:


一直有同学向我反馈:每天看你发的数据分析的文章,心里痒痒,十分想自己也学习做一篇,不知道路人甲是否能分享一下文章中所涉及到的技术点,以及这种文章的写作思路。


我很愿意,知识应当是共享的,人是在分享中进步的,所以今天我打算说一说自己的数据分析的写作套路。


01.确定问题

首先,应该明确自己要分析的问题,比如说:

  • 鉴定淘宝上的某个商品是否有刷单行为

  • 鉴定华为的 P10 门有没有请水军来公关

  • 国产电影的整体质量近年是否在降低?


02.数据来源

现在我们已经知道了我们要去研究怎样的问题了,下一个很重要的问题就是数据来源哪里?抓怎样的数据?抓怎样的数据可以帮我我们解释我们提出的待分析的问题。


比如说我们想研究国产电影的整体质量近年是否在降低,那我们就要想:电影的质量是否可以量化?哪里可以有这几年的国产电影的数据?显然,豆瓣电影已经帮我们做到了这一点,于是我们只需要去把豆瓣的国产电影评分等信息全都提取出来即可。


又比如我们想研究淘宝的某个商品是否存在刷单行为,那我们就要想:刷单的行为有什么特征?显然,刷单的商品评论正常都会出现:短时间内突然出现超多商品评论,并且这些评论可能有很多是一样的内容。明确这一点,我们只需要去把这个商品的所有平均数据都提取出来。


通过上面两个例子,你应该会发现:IDEA很重要,要分析怎样的问题,数据来源哪里,因此通常第一步第二步是最重要的。


如何训练这种IDEA?我的建议是:多看看别人的数据分析的文章,如果可以的话强烈建议你经常性的做头脑风暴,尤其是你无聊无事可做的时候,我经常用来打发时间。


03.数据抓取

上一步已经确定了数据来源,巧妇难为无米之炊,有了数据我们才能进行分析,所以紧接着我们就要做数据采集。早期关注就关注公众号的同学应该对数据采集并不陌生,当然如果你还不太会,可以看我之前的文章:用Python爬网页需要了解什么背景知识 。


04.数据可视化

如果说确定问题是一个婴儿的雏形,那么数据就是他的身体内部构造,而可视化就是他的外表,可视化决定着这个婴儿的外貌,决定着别人是都喜欢你的可视化结果。


那么,如何做可视化?


如果你对Excle比较熟悉,并且你的可视化并没有涉及到太复杂的功能,那么我强烈推荐你使用Excle自带的图表功能。


如果你想要你的图表绚丽多彩,不妨试一试百度的唯一一款良心产品Echarts,图标多样并且灵活性很大,做出的也比较好看。


最后推荐一个我在每一篇数据分析文章中都用到的可视化工具Tableau,唯一的缺点是这是一个付费产品,好在如果你是学生,可以凭学生证免费使用。


05.再说一点

有很多同学说,不知道怎样的问题可以用数据来解释,怎样的问题无法用数据来解释。对此,我有一个建议:可以先抓取一些数据,对这些数据进行清理之后直接扔到 Tableau 里面,你会发现一些有意思的东西。


数据分析重点在IDEA,而这些IDEA是要经过不断的学习和思考的.

版权声明:本文为博主原创文章,未经博主允许不得转载。

其实,数据分析就一个套路!

经常看数据分析类的文章的同学都知道,我们往往能通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的。 一直有同学反馈:每每看到各类数据分析的文章,又是用Python,又是用R,还有其...
  • luyaran
  • luyaran
  • 2017年05月09日 18:07
  • 104

利用python进行数据分析笔记

pandas基础索引Series和DataFrame都是有索引的,索引的好处是快速定位,在涉及到两个Series或DataFrame时可以根据索引自动对齐,比如日期自动对齐,这样可以省去很多事。缺失值...

Python中的结构化数据分析利器-Pandas简介

Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发t...

Python数据分析与展示(4)——Matplotlib基础绘图函数示例

最近在中国大学mooc网学习Python数据分析与展示相关知识,记入下来,以供参考。...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:我数据分析的套路
举报原因:
原因补充:

(最多只允许输入30个字)