数据分析自学01提纲篇

最新推荐文章于 2024-04-19 11:37:09 发布

小陆一定顺顺利利

最新推荐文章于 2024-04-19 11:37:09 发布

阅读量371

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39041442/article/details/98663684

版权

整理自网上的。

cr.http://www.woshipm.com/data-analysis/444009.html

框架

第一周：Excel学习掌握

学会搜索，重点是vlookup函数（SQL的jion以及Python中的merge）和数据透视表（SQL中的group以及Python中的pivot-table）

Excel熟能生巧，不要合并单元格，不要过于花哨，按照原始数据（sheet1）、加工数据（sheet2）、图表（sheet3）的类型管理。

了解单元格格式，后期的数据类型包括各类timestamp，date，string，int，bigint，char，factor，float等。
了解数组，以及怎么用（excel的数组挺难用），Python和R也会涉及到 list。
了解函数和参数，当进阶为编程型的数据分析师时，会让你更快的掌握。
了解中文编码，UTF8和ASCII，包括CSV（逗号分隔值）的delimiter等。

第二周：数据可视化

掌握代码的数据分析，掌握BI（商业智能），更擅长解释已经发生和正在发生的数据。

三个过程：了解数据（图表），整合数据（BI），展示数据（信息化，可视化）。

第三周：分析思维的训练

了解思维导图，之后再了解SMART、5W2H、SWOT、4P理论。六顶思考帽等框架。

分析的框架和方法论：

一个业务没有指标，则不能增长和分析；
好的指标应该是比率或比例；
好的分析应该对比或关联。

第四周：数据库学习

主要了解where，group by，order by，having，like，count，sum，min，max，distinct，if，join，left join，limit，and和or的逻辑，时间转换函数等。

如果想要跟进一步，可以学习row_number，substr，convert，contact等。另外不同数据平台的函数会有差异，例如Presto和phpMyAdmin。

再有点追求，就去了解Explain优化，了解SQL的工作原理，了解数据类型，了解IO。

第五周：统计知识学习

我们需要花一周的时间掌握描述性统计，包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。

第六周：业务知识（用户行为、产品、运营）

宽泛的业务数据：

产品数据分析，以经典的AAARR框架学习，了解活跃留存的指标和概念。数据分析师需要知道如何用SQL计算。因为在实际的分析过程中，留存只是一个指标，通过userId 关联和拆分才是常见的分析策略。

网站数据分析，用户从哪里来（SEO／SEM），用户到哪里去（访问路径），用户是谁（用户画像／用户行为路径）。

用户数据分析，这是数据化运营的一种应用。

在产品早期，可以通过埋点计算转化率，利用AB测试达到快速迭代的目的，在积累到用户量的后期，利用埋点去分析用户行为，并且以此建立用户分层用户画像等。比如用贝叶斯算法计算用户的性别概率，用K聚类算法划分用户的群体，用行为数据作为特征建立响应模型等。

第七周：Python/R学习

R语言的开发环境建议用RStudio。

学习Python有很多分支，我们专注数据分析这块。需要了解调用包、函数、数据类型(list,tuple,dict)，条件判断，迭代等。高阶的Numpy和Pandas在有精力的情况下涉及。

四步建立数据分析思维框架：

①．建立指标体系

②．明确好指标和坏指标

好指标应该是核心驱动指标。虽然指标很重要，但是有些指标需要更重要。就像销量和利润，用户数和活跃用户数，后者都比前者重要。

核心驱动指标和公司发展关联，是公司在一个阶段内的重点方向。互联网公司常见的核心指标是用户数和活跃率，用户数代表市场的体量和占有，活跃率代表产品的健康度，但这是发展阶段的核心指标。

另外一方面，好的指标还有一个特性，它应该是比率或者比例。

坏指标包括：

一是虚荣指标，它没有任何的实际意义。

二是后验性指标，它往往只能反应已经发生的事情。

三是复杂性指标，它将数据分析陷于一堆指标造成的陷阱中。

③．建立正确的指标结构

这套框架列举的指标，依旧要遵循指标原则：需要有核心驱动指标。移除虚荣指标，适当的进行删减，不要为添加指标而添加指标。

和分析思维的金字塔结构一样，指标也有固有结构，呈现树状。指标结构的构建核心是以业务流程为思路，以结构为导向。

④．了解维度分析法（数据透视表）

当你有了指标，可以着手进行分析，数据分析大体可以分三类:

1. 利用维度分析数据。2.使用统计学知识如数据分布假设检验。3.使用机器学习。

对于维度的理解：维度是描述对象的参数，在具体分析中，我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度，时间也是一种角度，所以它们都能算维度。

分析的核心思维之一：对比，不同维度的对比，这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比，比如不同地区维度的对比，比如产品类型的区别对比，比如不同用户的群体对比。单一的数据没有分析意义，只有多个数据组合才能发挥出数据的最大价值。

我们通过业务建立和筛选出指标，将指标作为维度，利用维度进行分析。

维度是说明和观察事物的角度，指标是衡量数据的标准。维度是一个更大的范围，不只是数据，比如时间维度和城市维度，我们就无法用指标表示，而指标（留存率、跳出率、浏览时间等）却可以成为维度。通俗理解：维度>指标。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。