Python 数据分析——数据分析的基本流程

一个完整的数据分析项目可以分为5步,如图1所示。

图1 数据分析流程

一、问题定义

企业或组织中的数据分析必须从正确的问题开始,而该问题必须清晰、简洁,同时要可度量。我们的目标是通过提出问题来帮助寻找新的解决方案,或者说解决特定问题。例如,公司通常会有用户数据、运营数据、销售数据等,我们需要利用这些数据来解决什么问题,得出什么结论。以下有一些例子:

· 某移动应用的新用户注册率趋势如何?

· 某游戏的玩家用户画像是如何的?

· 经常购买电商网站某品类的是哪类人群?

· 如何提高企业的销售额?

· 如何对用户画像,如何进行精准营销?

问题的定义通常需要分析人员对业务有深入了解,这也是经常提到的数据思维。例如,要提高企业销售,那么需要理解企业盈利模式是什么;收入可以通过增加用户来提高,还是提高价格;又或者是公司不应该专注于销售额,而应该关注利润。需要明确的是开始提出的问题只是出发点而非终点,很可能在针对问题进行了一系列研究后,我们会修改最初的问题定义。而如何更好地定义问题,这就需要我们通过不断练习来寻找对数据的感觉。

二、收集数据

有了具体的问题,就需要准备获取相关的数据了。首先需要明确,问题对应的数据是什么,这些数据如何定义,如何度量。之后就需要考虑哪些数据是已经存在的,哪些数据需要通过对现有数据进行加工来获得,哪些数据还没有。典型的数据获取方式有以下几种。

(1)企业数据库/数据仓库。大多数公司的销售、用户数据都可以直接从企业数据库获取。例如,可以根据需要提取某年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海及广东地区用户的消费数据等。通过结构化查询语言(Structured Query Language,SQL)命令,我们可以快速完成这些工作。

(2)外部公开数据集。一些科研机构、企业、政府都会开放一些数据。开放政府数据更是成为近年的热潮,典型的有2018年12月21日,美国众议院投票决定启用“H.R. 4174”(Foundations for Evidence-Based Policymaking Act of 2017)。首先,这项《公共、公开、电子与必要性政府数据法案》(又称《开放政府数据法案》)要求政府信息应以机器可读的格式,默认向公众开放数据,且此类出版物不会损害隐私或安全;其次,联邦机构在制定公共政策时,应循证使用。与之对应,我国国务院也制定了《促进大数据发展行动纲要》,要求“2018年底前建成国家政府数据统一开放平台,率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放”,截至2019年,已经有50多个地市开放了平台,开放了约15个领域的数据,包括教育科技、民生服务、道路交通、健康卫生、资源环境、文化休闲、机构团体、公共安全、经济发展、农业农村、社会保障、劳动就业、企业服务、城市建设、地图服务。

(3)爬虫。利用爬虫去收集互联网上的数据是经常会采用的数据获取方式。例如,爬取淘宝上的商品信息;通过爬虫获取招聘网站某一职位的招聘信息;爬取租房网站上某城市的租房信息等。

(4)实验。如果想要判断新的应用界面是否会提高用户转化率,那么可以通过实验方式来获取,这其实就是我们熟悉的A/B测试。针对不同的问题可以设计各种不同的实验来获取相应的数据。

值得一提的是,我们有时并不能够获得所有需要的数据,不过这并不重要,因为我们的目标是通过有限的可获取的数据,提取更多有用的信息。

三、数据处理

数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。

数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。现实世界中的数据大体上都是不完整、不一致的脏数据,无法直接进行数据分析,或分析结果不尽如人意。数据预处理有多种方法:数据清理、数据集成、数据变换、数据归约等。把这些影响分析的数据处理好,才能获得更加精确的分析结果。

以大众最近关心的空气质量数据为例,很可能其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。那么需要用相应的方法去处理,如残缺数据,是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。当然在这里我们还可能会进行数据分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,通过这些操作掌握数据的分布特征,以帮助我们进一步深入分析和建模。

四、数据分析

进入数据分析阶段,需要了解不同方法适用的场景和问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求等不清造成的。选择几种统计分析方法对数据进行探索性的反复分析也是极为重要的。每一种统计分析方法都有自己的特点和局限,因此,一般需要选择几种方法反复印证分析,仅依据一种分析方法的结果就断然下结论是不科学的。例如,在一定条件下,发现销量和价格成正比关系,那么可以据此建立一个线性回归模型,如果发现价格和广告是非线性关系,可以先建立一个逻辑回归模型来进行分析。一般情况下,回归分析的方法可以满足很大一部分的分析需求,当然也可以了解一些数据挖掘的算法和特征提取的方法来优化自己的模型,获得更好的结果。

通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能一目了然呢?一般情况下,数据是通过表格和图形的方式来呈现的,即用图表说话。常用的数据图表包括饼图、柱状图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,如金字塔图、矩阵图、瀑布图、漏斗图、帕累托图等。多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。

五、结果解读与应用

数据分析的结果需要以报告的形式展现,数据分析师如何把数据观点展示出来则至关重要。这一过程需要数据分析师的数据沟通能力、业务推动能力和项目工作能力。首先,深入浅出的数据报告、言简意赅的数据结论将更有利于业务理解和接受。其次,在理解业务数据的基础上,推动业务落地实现数据建议。通常,从业务最重要、最紧急、最能产生效果的环节开始是个好方法,与此同时需要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。最后,需要明确的是一个数据项目工作是循序渐进的过程,无论是数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

 三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

 最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值