数据分析入门（第一课）

最新推荐文章于 2024-03-09 11:26:20 发布

人工智

最新推荐文章于 2024-03-09 11:26:20 发布

阅读量351

点赞数

分类专栏：数据分析文章标签：拓扑学概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35789269/article/details/105315087

版权

数据分析专栏收录该内容

6 篇文章 2 订阅

订阅专栏

为了我在读硕士的媳妇入门数据分析，我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式，拿来主义的博文。要学会数据分析，特别是需要掌握数据的特征，我们首先需要了解一些基本的概念。

第一：数据分析要解决什么问题？

根据数据的特征，来预测数据的走向？分析数据的趋势或者离散程度？或者仅仅是对比几组数据在某个指标上的好坏？或者是对用户进行画像？

在我媳妇儿的生物化学领域，一般来说就是对比两个方法在测出来的数据的好坏，或者哪个方法测出来的数据更好。

要学会分析数据，首先要明白有哪些指标可以来度量数据的好坏。

概念：

均值：算数平均数

均值数据对数值型数据计算的，而且利用了全部数据信息，提取的信息最充分，当数据呈对称分布或近似对称分布时，三个代表值相等或相近，此时应选择平均数。但受极端数据的影响，对于偏态分布的数据，平均数的代表性较差，此时应考虑中位数或众数。

中位数：将数据按大小排列后位于正中间的数描述，描述中等水平

中位数是一组数据中间位置上的代表值，直观，不受极端数据的影响，但数据信息利用不够充分，当数据的分布偏斜较大时，使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。

众数：数据中出现最多的数

众数一组数据分布的峰值，容易计算，但不是总是存在，众数只有在数据量较多时才有意义，数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值，应用场合较少；

众数、中位数和均值是分布集中趋势的三个主要测度，众数和中位数是从数据分布形状及位置角度来考虑的，而均值是对所有数据计算后得到的。

方差：

在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数

标准差：

那么问题来了，既然有了方差来描述变量与均值的偏离程度，那又搞出来个标准差干什么呢？

标准差是方差的算术平方根。因为方差与我们要处理的数据的量纲是不一致的（因为做了平方），虽然能很好的描述数据与均值的偏离程度，但是处理结果是不符合我们的直观思维的。

协方差：

在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

简单地来说，协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种：正相关、负相关、不相关。

什么是正相关呢？例如房屋面积（X）越大，房屋总价（Y）越高，则房屋面积与房屋总价是正相关的；

什么是负相关呢？例如一个学生打游戏的时间（X）越多，学习成绩（Y）越差，则打游戏时间与学习成绩是负相关的；

什么是不相关呢？例如一个人皮肤的黑白程度（X）与他的身体健康程度（Y）并无明显关系，所以是不相关的

标准差和方差一般是用来描述一维数据的，但现实生活我们常常遇到含有多维数据的数据集，最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的帅气程度跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，协方差可以这么来定义：

举例：协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，也就是说一个人越帅气就越受女孩子欢迎，嘿嘿，那必须的~结果为负值就说明负相关的，越帅气女孩子越讨厌，可能吗？如果为0，也是就是统计上说的“相互独立”。

男生的帅气程度Xi ：1.1 ，1.9 ，3

受女生的欢迎程度：Yi ：5.0 ，10.4 ，14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

当 Cov(X,Y) > 0 时，X 与 Y 正相关；

当 Cov(X,Y) < 0 时，X 与 Y 负相关；

当 Cov(X,Y) = 0 时，X 与 Y 不相关；

3.02>0说明他们是正相关的。

协方差数值大小是否代表了相关程度呢？

也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢？并不是协方差越大，正相关程度越高

出现这种情况的原因是两种情况数值变化的幅值不同（或者量纲不同）。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来，在比较协方差的时候也就没有一个统一的量纲标准。所以，为了消除这一影响，为了准确得到变量之间的相似程度，我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式：

分别计算上面例子X、Y的标准差：

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

则X,Y的相关系数：

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明这组数据X,Y之间相关性很好!

为什么除以各自变量的标准差就能消除幅值影响呢？

这是因为标准差本身反映了变量的幅值变化程度，除以标准差正好能起到抵消的作用，让协方差标准化。这样，相关系数的范围就被归一化到 [-1,1] 之间了。

协方差矩阵

衡量更多变量之间相关性，每个变量和其它每一个变量求协方差组成一个矩阵就是协方差矩阵。

　

　　

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析入门（第一课）

为了我在读硕士的媳妇入门数据分析，我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式，拿来主义的博文。要学会数据分析，特别是需要掌握数据的特征，我们首先需要了解一些基本的概念。第一：数据分析要解决什么问题？根据数据的特征，来预测数据的走向？分析数据的趋势或者离散程度？或者仅仅是对比几组数据在某个指标上的好坏？或者是对用户进行画像？在我媳妇儿的生化领域，一般来说就...
复制链接

扫一扫

专栏目录

人工智 CSDN认证博客专家 CSDN认证企业博客

码龄8年

161: 原创

17万+: 周排名

8万+: 总排名

46万+: 访问

: 等级

2701: 积分

839: 粉丝

351: 获赞

63: 评论

1529: 收藏

私信

关注

热门文章

分类专栏

云原生 13篇
应用安全 5篇
记录 106篇
数据库 23篇
日常编程 87篇
架构 10篇
微服务 34篇
低代码和元数据 2篇
网络 3篇
性能调优 19篇
架构系列 3篇
大数据 10篇
线程 1篇
算法 8篇
操作系统 9篇
camunda 5篇
数据分析 6篇
聚类 2篇
机器学习 2篇
数据库初始化
数据可视化 1篇

最新评论

HttpClient 出现 failed to respond 异常解决
TizzyGoodhealth: http请求太多，或者很多都共用一个http请求工具类，单路由太小，并发大就会这样。
FindInSet性能优化
老杨聊技术: 那就是说如果大数量下想优化 find_in_set 直接使用全文索引来替代吗？
计算机网络是如何通信的【一】
余十三_: 终于有一篇对小白来说思路清晰的文章了
HttpClient 出现 failed to respond 异常解决
九二战歌: 博主你好，我得http客户端调用链路是先到F5（底下是两个nginx节点），然后分发到nginx，再调用第三方的接口。现在是偶尔（一个月会出现几笔）出现NoHttpResponseException: F5地址:F5端口 failed to respond，但是nginx里查到的日志是成功的，请问这种情况的原因是什么呢？
Linux登录自动执行脚本
征途黯然.: The explanation of Linux登录自动执行脚本 is very clear, and I have gained a deeper understanding.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。