【Python】数据分析体系

数据分析

一、数据分析与统计入门

1. 基本概念

  • 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
    请添加图片描述
  • 统计学是搜集、分析、表述和解释数据的科学,广泛应用在商务和经济活动中。
  • 观测、实验、应用

2. 深入探究

  • 观测:对事物形成客观量化的认知(报表、图表、仪表盘)
  • 实验:发现规律、验证假设(科学研究、A/B测试)
  • 应用:不断基于数据反馈迭代产品

3. 观测

  • 观察:采集数据、储存数据、展示数据
    • 采集数据:解析系统日志
    • 采集数据:埋点获取新数据
    • 采集数据:通过传感器采集
    • 采集数据:爬虫(解析网站)
    • 采集数据:API (API 平台文档、用API 获取数据)
    • 储存数据:各类类型的数据库-hive、mysql、presto、impala(数据工程师)
    • 储存数据:连接数据库取数
    • 展示数据:可视化高效传达信息
  • 测量:设定标准、发现异常、研究关系

4. 分析数据的目的

  • 及时发现异常
  • 找到数据之间的因果关系

5. 数据是客观统一的

  • 数据是客观统一的:有统一的认知才能有共同的目标
    • 设定标准+发现异常
    • 研究关系:可视化查看相关性、建模推导相关性

6. 实验

  • 提出假设,然后验证假设
    • 观测到差评率飙升、假设由恶劣天气引起、通过天气数据验证假设
  • 所有未经过事实数据验证的想法都是假设
  • 设计A/B测试获取数据
  • 实验目标、实验假设、实验打分、实验指标、实验观众、实验版本、开发验收、实验结果、实验分析、后续计划

7. 应用

  • 如何应用数据创造价值
    • 基于数据反馈不断迭代产品和业务策略
      • 明确业务的目标,拆解目标,得到标准值
      • 流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、pest、rfm、swot、5w1h(拆解只要符合mece法则即可)
    • 将数据应用于业务
    • 将数据应用于算法
      • 为算法设定明确的业务目标
      • 为算法提供高质量的数据
      • 判断算法是否真的创造了实际价值
      • 帮助业务更好地使用算法
    • 基于数据训练算法,让机器自动化地完成工作

8. 术语

  • GMV 营业额/商品交易总额

二、数据分析初步应用

1. 数据源

  • 数据 (data) 是为了描述和解释所搜集、分析 汇总的事实和数字。
    将用于特定研究而搜集的所有数据称为研究的数据集
  • 个体(element) 是指所收集数据的实体。
  • 变量( variable) 是个体中所感兴趣的那些特征。
    在这里插入图片描述
  • WTO 身份:世界贸易组织中的成员身份,它可以是成员或观察员
  • 人均GDP (美元) :国家总产出除以该国的总人口数,它通常用于比较国家经济生产率
  • 贸易逆差(1000 美元) :国家的进口总额与出口总额之差
  • 惠誉评级:由惠誉国际组织评价的国家主权信用评级,信用评级从最高的AAA到最低的F,可用+或-来微调。
  • 惠誉评级展望:未来 信用评级可能变动的方向性指标,展望可以是正面、稳定或负面
  • 在一项研究中,对每个个体的每一变量收集测量值,从而得到了数据。对某一特定个体得到的测量值集合称为一个观测值 (observation) 。
  • 如上图所示,我们得到第一个观测值(亚美尼亚)的测量值集合是成员、 5400,267335739,BB-,Stable 。第二个观测值(澳大利亚)的测量值集合是成员,40 800,-33304157, AAA , Stable 。
  • 60 个个体的数据集有 60 个观测值。

2. 数据可视化

  • 数据可视化是关于数据视觉表现形式的科学。其中,这种表现形式被定义为一种包括相应信息单位的各种属性和变量的信息抽取和提炼。

3. 小结

  • 数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其他来源等。
  • 统计实践的准则
    • 公平、谨慎、客观和中立的态度
    • 数据分析及统计从业人员应当避免任何对预测结果有倾向性的统计分析工作。
    • 例:在国内的许多地区,饭店内是不允许吸烟的,假如烟草业的说客在允许吸烟的饭店进行调查. 目的是估计赞成在饭店内允许吸烟的就餐者比例, 抽样结果表明 90% 的受访者同意在饭店内允许吸烟。根据这个抽样结果,说客声称饭店所有就餐者中有90% 的人赞成在饭店内允许吸烟。在这个案例中我们应该指出只在允许吸烟的饭店所做的抽样会歪曲调查结果。如果只报告该研究的这个最终结果,而不熟悉研究的细节(如样本是在允许吸烟的饭店搜集的) ,读者就会被误导

4. 案例

  • 这个数据集中有多少个体? 10
  • 这个数据集中有多少变量? 5
  • 哪些变量是分类变量,哪些变量是数量变量?
  • The ten elements are the ten tablet computers
  • 5 variables: Cost ($), Operating System, Display Size (inches), Battery Life (hours), CPU Manufacturer
  • Categorical variables: Operating System and CPU Manufacturer
  • Quantitative variables: Cost ($), Display Size (inches), and Battery Life (hours)
    在这里插入图片描述

三、图表分析方法初步

1. 数据可视化

  • 数据可视化 (dala visalization) 常常用于描述汇总和表述一个数据集信息的图形显示的效用
  • 频数分布是一种数据的图表汇总方法,表示在几个互不重叠组别中,每一组项目的个数(即频数)。
  • 条形图 (bar chart) 是一种图形方法,用来描绘已汇总的分类数据的频数分布、相对频数分布或百分数频数分布。
    • 在图形的一个轴上(通常是横轴) ,我们规定了用来对数据分组(类别)的标记,在图形的另一个轴上(通常是纵轴) 标出频数、相对频数或百分数频数的刻度。
    • 用一个固定宽度的长条绘制在每一组的标记上,将这个长条的高度延伸,直到达到该组的频数、相对频数 、点百分数频数 、对于分类变量数据应将这些长条分隔开,以强调每一组是相互独立的事实。
  • 饼形图 (pie chart) 是另一种描绘分类型数据的相对频数和百分数频数分布的图形方法。首先画一个圆来代表所有的数据, 然后用相对频数把圆细分成若干扇形部分 ,这些扇形与每一组的相对频数相对应。
  • 一般地,饼形图不是呈现对比的百分比的最佳途径。人们更愿意准确判断长度间的差异,而非角度(或部分)间的差异,当进行这样的比较时建议你使用条形图。

四、实践中的数据分析

1. 数据处理经验

  • 数据清洗:缺失值、异常值和重复值的处理
    请添加图片描述
    请添加图片描述

请添加图片描述

  • 样本类别不平衡
    请添加图片描述

请添加图片描述

  • 解决数据源的冲突
    请添加图片描述

请添加图片描述

  • 数据的共线性
    请添加图片描述

五、Excel基础操作

1. sum函数

  • SUM(number1,number2,…) SUM(列名) SUM(行名)
  • SUM(单个或多个单元格) SUM(列的名称 如:A:A) SUM(行的名称 如:1:1)
  • 例1:单元格里输入=sum(C15:C21)
  • 例2:=SUM(‘源数据’!J:J) // 1-8月GMV
  • 例3:=SUM(‘源数据’!J2:J25,‘源数据’!J496:J562) // 1月和8月GMV
  • 视图 - 新建窗口 分屏(方便查看数据)
  • 视图 - 冻结窗格 基于选择的单元格冻结
    • 点B2的格子然后点冻结窗格可以实现第一行和第一列同时冻结
到底数据分析体系是什么?似乎经常看到的,只有AARRR五个字母,又语焉不详。到底怎样才算是建了个体系?今天我们系统解答一下。 本文为细心整理的.md笔记,做了摘记概括。 **搭建数据分析体系常犯错误**是丢失重点、目标,陷入指标细节;贪大求全的使用同一套指标而不加以区分职责。 **数据分析要旨**在于解释数据背后的业务含义,找到**对业务有用的价值点**。 **数据分析体系**能**更有效率**的支持业务,把数据报表、专题报表串起来,有层次展现,应用到业务中。**有节奏、有主次、有顺序的展现**数据。 **搭建数据分析体系的基本思路**: 明确服务对象即针对的需求方负责人; 明确工作目标,量化目标,可以计算目标和现状的差距; 监督业务走势,发现问题苗头; 了解业务行动,分解业务细节,找到数据可以帮助的价值点; 行动之后,复盘行动结果,事后总结出普遍的经验。优秀的业务能力永远稀缺,不可复制。复盘的意义:把明显的作死行为总结出来,避免普通人犯错。 **数据分析体系不是一成不变,也需要迭代升级,提升专业水准的要求**:坚守目标,迭代方法,积累经验。固定通用产品、临时个体专题。 **回到出发点,重视业务需求**:从业务中来,到业务中去;用专业的方法服务个性化需求 ### 精彩段子: **数据的优势,不是直接生产出超人的创意,而是事后总结出普遍的经验**。**优秀的业务能力永远是稀缺资源,是不可复制的**。但通过数据分析复盘,可以**把明显的作死行为总结出来,避免普通人犯错**。 **数据的作用:长期积累的业务方经验,(基于普遍意义)为遇到的问题提供思路。** **做业务从来不怕失败,怕的是败的不明不白**。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

柠檬小帽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值