我对数据分析的初步理解

数据分析有很多基本概念是我们应该了解的。
基本概念
一,统计与挖掘的区别。
统计是事先设想好的一个动作,然后去验证它。而挖掘主要是从大量数据中通过各种方法找出隐藏于其中的其中的信息。
二,平均值与标准差。
平局值顾名思义就是数据的平均水平,上过学的都应该知道。平均值就是数据总和除以数据量。但是在数据量足够大的时候,其反映了一个数据“应该”是什么,反映了数据的中轴线。而标准差反映了数据的波动程度。其二者的组合经常用于衡量数据的变动范围。
三,正态分布。
总所周知正态分布往往之存在于理论中。但是往往现实中的问题都可以正态分布曲线来解释。打个不恰当的例子,就比如现在的贫富分布,往往低产阶级比较少,而中产阶级比较多,而高层阶级也比较少。
四,峰度与偏度。
峰度反映了数据的极值的情况。当极值与原值的取值范围比较接近的时候,峰值就会接近于0,而极值与原值的取值范围相差变大时,峰值也就会随之而变大。
当数据服从正态分布时,偏度为0。
数据左偏,偏度<0。
数据右偏,偏度>0。
五,连续与离散。
连续变量就是一个区间可以任意变化的量。而离散变量就是只能取很少的数的几个值。而离散变量又可分为两元离散量、多元名义离散量和多元有序离散量。两元离散量有很多,比如“能”和“不能”。多元名义离散量指的是有多个离散量并且其之间没有明确的排序关系,比如电脑有“联想”、“戴尔”、“惠普”和“苹果”等品牌。多元有序离散量的例子就比如“优”、“良”、“中”和“差”。
六,自变量和因变量。
自变量一般就是其发生变化后会引起其他变量变化的变化量。而因变量就是这些其他变量,其一般指的是我们研究和关心的变量。有一个简单区分两者的方法,时间上靠前的就是自变量,时间上靠后的就是因变量。
本文内容部分摘自于纪贺元老师的《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值