《对比Excel，轻松学习Python数据分析》读书笔记------数据分析简介

最新推荐文章于 2023-11-13 19:46:05 发布

木子希卡利

最新推荐文章于 2023-11-13 19:46:05 发布

阅读量743

点赞数

分类专栏：数据分析文章标签： python 数据分析学习

本文链接：https://blog.csdn.net/ncu5509121083/article/details/126061784

版权

数据分析专栏收录该内容

11 篇文章 1 订阅

订阅专栏

本文详细介绍了数据分析的定义、目的及一般流程。数据分析旨在挖掘数据背后的信息，包括现状分析、原因分析和预测分析。常用指标涵盖总体概览、对比性、集中趋势、离散程度和相关性。数据分析流程包括熟悉工具、明确目标、获取和处理数据、分析、验证结论及展示。常用工具有Excel、Python等。

摘要由CSDN通过智能技术生成

1.1 数据分析的定义

数据分析是指，利用合适的工具，在统计学理论的支撑下，对数据进行一定的预处理，结合业务需求分析解构数据，以期能够监控、定位、预防、分析、解决问题，提高经营效率，发现机遇机会的过程。

1.2 数据分析的目的

啤酒和尿布

数据分析里有一个经典的案例，超市里经常会把婴儿尿不湿和啤酒放在一起售卖，原因是经过数据分析发现，出来买尿不湿的家长以父亲居多，如果他们在买尿不湿的同时看到了啤酒，将有很大的概率会买来犒赏自己。这样啤酒的销售量自然会有所提高。

由啤酒和尿布的故事可以发现，适当的数据分析能够帮助我们进行更加正确有效的决策。

数据分析的主要目的是，挖掘大量数据背后隐藏的信息，从而总结出数据变化的内在规律。

按照目的和阶段先后进行划分，数据分析一般分为:现状分析、原因分析、预测分析

1.2.1 现状分析

现状分析，是对当前所得的数据进行总结。

总结当前运营的整体状态
总结各项关键指标的变化量

形式一般为日常报表，如:日报、周报、月报

1.2.2 原因分析

原因分析，是指进行现状分析后，找到某种现象发生的原因。

比如，某种商品销售量突然暴增，就需要对它进行数据分析，来找到其中的原由，给以后的销售策略提供参考。

形式一般为专题分析。

1.2.3 预测分析

预测分析，是指通过已有的现状分析和原因分析，对某一决定可能造成的影响进行预测。

形式一般为专题分析。常在季度、年度计划时进行。

1.3 数据分析的指标

数据分析，分析的是从大量数据中得出来的各项指标。

一般分为总体概览指标、对比性指标、集中趋势指标、离散程度指标、相关性指标等

1.3.1 总体概览指标

总体概览指标，又称统计绝对数，它反映了某一数据字段的整体规模大小和总量。

“xx总量"，如一定总体范围内粮食总产量、工农业总产值、企业单位数等。

经常关注的总体概览指标，我们一般称为关键性指标

1.3.2 对比性指标

对比性指标，它反映了同一数据字段在不同时间下的数量对比关系。常见的有同比、环比、差等。

同比:与过去相同时间段的相同时间点进行对比。比如今年7月份与去年7月份销售量之间的比较。
环比:与当前相同时间段的不同时间点进行对比。比如今年7月份与今年6月份销售量之间的比较。
差 :两个不同时间段内的指标直接作差。

1.3.4 集中趋势指标

集中趋势指标，它反映了一个时间段内数据字段的平均水平。

又称平均指标。分为数值平均和位置平均。

数值平均:算术平均数、加权平均数等

$算术平均数:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加权平均数:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1$

位置平均:中位数、众数等
- 中位数:将数据从小到大排列，位于正中间的一个数据或两个数据的平均值
- 众数:一定区域的数据中出现次数最多的数据值

1.3.5 离散程度指标

离散程度指标，它反映了数据的离散(波动)情况。

常见的有全距、方差、标准差等

全距：又称极差。反映数据字段整体波动范围

$全距:R=\max D-\min D$

全距容易受异常值的影响，为了解决这个问题，引入了四分位数。

四分位数:将数据从小到大排列，一分为四，得到三个临界数据，称最大的为上四分位数，最小的为下四分位数，剩下的那个为中位数。
方差:反映数据相对于平均值的波动程度。越小波动程度越低。
标准差:方差的开方。反映数据相对于平均值的波动程度。更为直接。越小波动程度越低。

$方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 标准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2}$

1.3.6 相关性指标

相关性指标，它反映了两个数据字段间的相关性。

常见的有协方差，相关系数等。

协方差：表示两个数据字段之间的总体误差。为正，则两个数据字段正相关，为负，负相关。
$协方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n}$

相关系数：范围为 $[- 1, 1]$ ,绝对值越大说明相关性越强。符号为正，代表正相关。为负，代表负相关。
$\ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}}$