【Excel】数据分析工具库

一、工具库简介

1、作用

便于复杂数据统计分析,可以完成描述统计、直方图、相关系数、移动平均、指数平滑、回归等19中统计分析方法。但是与专业的统计分析软件相比,数据量和复杂程度有限。

2、安装

步骤:【文件】-【选项】-【加载项】-【Excel加载项】-转到-勾选【分析工具库】【分析工具库-vba】
位置:【数据】-【数据分析】
在这里插入图片描述

3、统计方法归纳

在这里插入图片描述

二、描述性统计分析

1、介绍

描述统计分析的常用指标有平均数、中位数、中枢、标准差、方差等,提供分析对象数据的集中程度和离散程度等信息。

2、操作

  1. 位置
    【数据】-【数据分析】-【描述统计】
  2. 参数
    1)输入参数
  • 输入区域 - 要进行描述统计的数据区域
  • 分组方式 - 选择区域是按列还是按行
  • 标志位于第一行:勾选后表示第一行是字段名
    2)输入参数
  • 输出区域/新工作表组/新工作表 - 描述统计值输出的位置
  • 汇总统计 - 平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数
  • 平均数置信度 - 指总体参数值落在样本统计值某一区间的概率,常用95%或90%
  • 第k大(小)值:第k位的最大(小)值
    在这里插入图片描述
    注意:与正态分布相比(峰度=0,偏度=0)
    峰度>0,呈尖峭峰分布;峰度<0,成平阔峰分布
    偏度>0,呈高峰偏左,长尾向右延,正偏态分布;偏度<0,呈高峰偏右,长尾向左延,负偏态分布
    在这里插入图片描述
    如图,该组数据呈平阔峰负偏态分布。

三、直方图

1、介绍

直方图用于展示数据分布,用矩形的宽度和高度表示频数分布,横轴表示数据分组,纵轴表示频数或频率。

2、操作

  1. 定义组距
  2. 位置:【数据】-【数据分析】-【直方图】
    在这里插入图片描述
  3. 参数
  • 接收区域:组距数据区域
  • 标志:输入区域和接收区域中包含标题则勾选
  • 柏拉图:组距按照频数从大到小排列
  • 累积百分率:频数累计百分率
  • 图表输出:输出图表

四、抽样分析

1、介绍

rand函数可以实现随机抽取数据,但无法实现有规律抽取。“抽样”分析工具可以解决这个问题。

2、操作

  1. 位置:【数据】-【数据分析】-【抽样】
    在这里插入图片描述
  2. 参数
  • 抽样方法-周期:输入周期间隔,抽取间隔位置上的数
  • 抽样方法-随机:有放回的方式,任何数值有可能被多次抽取。

五、相关分析

1、介绍

相关关系现象之间存在的非严格的、不确定的依存关系。
相关分析是研究两个或两个以上随机变量之间相互依存的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多重相关用复相关系数表示。
相关系数就是反应变量之间先行相关强度的一个度量指标,用r表示,r范围[-1,1]。
在这里插入图片描述

2、操作

  1. 位置:【数据】-【数据分析】-【抽样】
    在这里插入图片描述
  2. 参数
  • 分组方式:根据输入区域,选择的是两列数据,因此选择逐列。
  1. 解读
    矩阵的行列交叉处就是两个变量之间的相关系数。

六、回归分析

1、介绍

回归函数关系是指现象之间存在的依存关系中,对于某一变量的每一个数值,都有另一个变量值与之相对应,并且可以用一个数学表达式表示出来。
回归分析是研究自变量和因变量之间的关系形式的分析方法,主要通过建立因变量y与自变量Xi(i=1,2,3,…)之间的回归模型,来预测因变量Y的发展趋势。
回归分析与相关分析的联系:均为研究及测量两个及两个以上变量之间关系的方法,实际工作中,一般先进行相关分析,极端相关系数,然后你和回归模型,进行显著性检验,最后用回归模型推算或预测。
回归分析与相关分析的区别:相关分析不区分自变量和因变量,回归分析不仅可以揭示两个变量之间的影响大小,还可以由回归模型进行预测。
回归分析模型
回归分析五个步骤:
在这里插入图片描述

2、操作

1)简单线性回归
  1. 公式
    Y=a+bX+ε
  • Y——因变量
  • X——自变量
  • a——常数项,回归直线在纵坐标上的截距
  • b——回归系数,回归直线的斜率
  • ε——随机误差,随机因素对因变量所产生的影响
  1. 绘制散点图
    一般做线性回归之前,需要先用散点图查看数据之间是否具有先行分布特征。
  2. 添加趋势线,通过绘制趋势线建立回归模型
    在这里插入图片描述
  3. 检验
    位置:【数据】-【数据分析】-【移动平均】
    在这里插入图片描述

参数

  • 残差:观测值和预测值之间的差
  • 标准残差:(残差-残差的均值)/残差的标准差
  • 残差图:绘制散点图,横坐标不变,纵坐标是残差值。如果点都分布在以0为横轴的直线上下散布,则表示拟合合理。在这里插入图片描述
  • 线性拟合图:横轴不变,以因变量和预测值为纵坐标绘制散点图。在这里插入图片描述
  • 正态概率图:用于检查一组数据是否服从正态分布,以因变量的百分位排名为横坐标,以因变量为纵坐标绘制散点图。在这里插入图片描述

解读

  • 回归统计表
    衡量相关程度,回归模型的拟合效果。
    在这里插入图片描述
  • 方差分析表
    判断回归模型的回归效果,即线性关系是否显著,线性模型描述得是否恰当。
    在这里插入图片描述
  • 回归系数表
    用于回归模型的描述和回归系数的显著性检验。
    在这里插入图片描述
2)多重线性回归

多重线性回归模型是指一个因变量和多个自动变量的回归模型,与包含两个或两个以上因变量的多元回归模型区分。

  • 公式
    Y=a+b1X1+b2X2+…+bnXn

  • Y——因变量

  • Xn——第n个自变量

  • a——常数项,回归直线在纵坐标上的截距

  • bn——第n个回归系数

  • ε——随机误差,随机因素对因变量所产生的影响

  • 参数
    在这里插入图片描述

  • 解读
    在这里插入图片描述

七、移动平均

1、介绍

除了相关分析和回归分析这种找变量之间关系的预测方法,还有根据时间发展进行预测,即时间序列预测。特征如下:

  • 假设事物发展趋势会延伸到未来;
  • 预测所依据的数据具有不规则性;
  • 不考虑事物发展之间的因果关系。
    时间序列预测主要包括移动平均法、指数平滑法、趋势外推法、季节变动法等。
    移动平均法根据时间序列逐期推移,依次计算包含一定奇书的平均值,形成平均值时间序列。

2、操作

  1. 公式
    Yt=(Xt-1 + Xt-2 + Xt-3 +…+ Xt-n)/n
  • Yt——对下一期的预测值
  • n——移动平均的时期个数
  • a——常数项,回归直线在纵坐标上的截距
  • Xt-n——前n期实际值
  1. 位置
    【数据】-【数据分析】-【移动平均】
  2. 参数
    在这里插入图片描述
  • 间隔:指定n组数据来计算平均值
  • 图表输出:由实际数据和移动平均值形成的直线图输出。(注意这个图表述可能不准确)
  • 标准误差:实际数据与预测数据的标准差,越小表明数据越准确。
  1. 结果
    在这里插入图片描述

八、指数平滑

1、介绍

改良的加权平均法,在不舍弃历史数据的前提下,对离预测期较近的历史数据基于较大的权属,权数由近到远按指数规律递减。

2、操作

  1. 公式
    Yt=αXt-1 + (1-α)Yt-1 = (1-β)Xt-1 + βYt-1
  • Yt——时间t的平滑值
  • Xt-1——时间t-1的实际值
  • Yt-1——时间t-1的平滑值
  • α——平滑系数
  • β——阻尼系数
    注意:β=1-α,阻尼系数越大,近期实际值对预测结果的影响越大。实际应用中,阻尼系数是根据时间序列的变化特性来选取的。如果时间序列数据波动不大,比较平稳,则阻尼系数应取小一些,如0.1-0.3;反之,时间序列数据具有迅速且明显的变动倾向,则阻尼系数,如0.6~0.9.
  1. 位置
    【数据】-【数据分析】-【指数平滑】在这里插入图片描述
  2. 结果
    在这里插入图片描述
    多个阻尼系数对比
    在这里插入图片描述
  • 10
    点赞
  • 77
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 可以使用pandas分析Excel数据。Pandas是一个强大的数据分析,提供了读取和写入各种格式的文件,包括Excel。通过使用pandas的`read_excel()`方法,可以读取Excel文件并将其存储在pandas的DataFrame对象中。然后,可以使用pandas的各种数据分析功能,如筛选、排序、合并和聚合,对数据进行处理和分析。 ### 回答2: 使用Python编写分析Excel数据的工具,可以利用Python中的开源,例如pandas和openpyxl,来实现数据的导入、清洗、分析和可视化。 首先,可以使用openpyxl来读取Excel文件,并将数据导入到Python中进行处理。该提供了操作Excel文件的方法,可以读取不同的工作表、工作簿和单元格,并将数据转化为DataFrame对象。 然后,可以利用pandas对导入的数据进行清洗和整理。pandas提供了丰富的数据处理方法,例如去除重复值、处理缺失值、筛选数据、计算统计指标等。这些方法可以帮助我们对Excel数据进行规范化和预处理,以便后续的分析。 接下来,可以使用pandas的数据分析功能来对Excel数据进行统计和分析。通过使用pandas的groupby、pivot_table、plot等方法,可以方便地对数据进行分类、汇总和可视化。例如,可以计算每个类别的平均值、总和和标准差,或者绘制柱状图、折线图、散点图等。 最后,可以利用Python中其他的可视化,如matplotlib和seaborn,进一步对Excel数据进行可视化展示。这些提供了丰富的图表类型和定制化选项,可以绘制出更加美观和有用的图表,以便更好地理解和传达分析结果。 综上所述,使用Python编写分析Excel数据的工具,可以方便地导入、清洗、分析和可视化Excel数据。通过使用pandas和其他的数据处理和可视化,可以快速高效地进行数据分析,帮助用户更好地理解和利用Excel数据。 ### 回答3: Python是一种功能强大的编程语言,它拥有丰富的和模块,可用于各种任务,包括分析Excel数据。使用Python编写分析Excel数据的工具可以提供以下功能: 首先,可以使用Python中的openpyxl来读取和写入Excel文件。该提供了许多功能,使我们能够轻松地访问和处理Excel中的数据。例如,我们可以通过提供Excel文件的路径打开工作簿,并选择需要操作的工作表。然后,我们可以使用工作表对象的各种方法来访问和操作单元格,行和列。 其次,我们可以利用pandas分析Excel数据。pandas是一个用于数据分析的强大,它提供了数据结构和数据分析工具,可以使我们更轻松地处理和分析大量的Excel数据。我们可以使用pandas的read_excel方法读取Excel文件,并将其转换为pandas的DataFrame对象。然后,我们可以使用DataFrame对象的各种方法和函数来进行数据筛选、排序、计算统计指标等操作,以便更好地理解和分析数据。 另外,我们还可以使用matplotlib来进行数据可视化。通过将pandas的DataFrame对象与matplotlib结合使用,我们可以绘制各种图表,如折线图、柱状图、散点图等。这可以有助于我们更直观地理解数据的分布、趋势和相关性。 最后,我们可以使用Python的其他和模块来进行高级数据分析,如numpy用于数值计算、scikit-learn用于机器学习和数据挖掘、statsmodels用于统计建模等等。这些工具可以进一步增强我们分析Excel数据的能力。 总而言之,使用Python编写分析Excel数据的工具可以使我们能够方便地读取、处理和分析Excel文件,并提供各种功能,包括数据筛选、统计分析和数据可视化等。这些功能对于数据分析师、研究人员和决策者来说都非常有用,可以帮助他们更好地理解和利用Excel中的数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值