可曾听闻【大话】二字_同质个体的某指标变量值的差异称为个体变异

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
img

正文

+ [1.2 统计学的基本概念](#12__50)
+ - [基于关系和因果的统计学分类](#_123)
+ [第二话](#_130)
+ - [数据的描述](#_134)
	- [用统计量描述:](#_171)
+ [代码展示](#_235)

我为什么要写这篇

我们都知道,21世纪是数据科学的时代,而统计学则是数据科学的基础,任正非在一档访谈节目中也着重谈到了统计学在大数据时代的重要性。大数据不能被直接拿来使用,统计学依然是数据分析的灵魂。
在这里插入图片描述

总论

全章概览图

在这里插入图片描述

1.1统计学是什么

“统计学”是兼具“数学计算”与“图形显示”的课程,所有的统计软件(如SPSS),并非计算机辅助教学(CAI),因为它们并非“教你学会统计”,而是应该在“学会了统计”以后,再来用它。本书就是这样一本让你从零开始接触统计学,并将其真正应用到工作中的一本书,稳步跟进大数据时代。

本书前后连贯,各章之间也是先后呼应。例如:从概率到抽样,从描述到推断,从检验到因果;每章也是连贯的,开关有引言、观念图,结尾有流程图、思维导图;书中有许多阶层图、分类图、关联图、步骤图、流程图,以及因果表、比较表、决策法则表等。

本书专门的配套软件(中文统计)是在Excel(2003~2016版本适用)环境下,安装一个“加载项”,输入统计资料,就可以得到统计结果。“中文统计”可以公开下载,仅提供给合法取得本书之读者使用。

本书适合所有想掌握统计学的读者,也可以作为高校教材,

统计学入门(一)-统计学的基本概念

统计一次,包括:统计工作,统计数据和统计学。内容的重点是统计学

  • 统计工作:统计的实践,应用统计问题,统计设计,搜索,整理,分析。
  • 统计数据:统计工作获得的各种相关数据信息,没有数据,就没有统计。
  • 统计学:统计理论,分析数据,选择分析模型,了解计算结果,获得信息价值。

应用最多的领域就是管理,所需要的就是 测量—>数据—>统计—>管理—>衡量—>绩效

统计学的目的有四个:

+ 了解现象:描述统计是了解数据的呈现与性质,如集中趋势的代表值或变异程度的离差值;时间序列和指数是了解变化因素的幅度
+ 推测总体:统计校验和估计是推测总体
+ 知道因果:两总体校验,方差分析,回归分析是知道因果
+ 预测未来:时间序列是预测未来**例题** 统计与统计学的源流(了解现象,推测总体)

统计学的产生和发展是以研究实际数据的统计实践活动为基础的,而统计实践活动注定与人类社会活动浑然一体,不可分割。人类的生存与发展大概离不开三个最基本的数:人口、土地和财富,统计也确实是从这三方面的调查开始的。

这方面的功能主要体现在科学评估(评价)和预测未来上,即作为评估与预测的工具。如今,通过运用现代统计手段测量评估社会绩效、发展潜力、竞争优势、生存质量、社会变革、生活条件、福利水平等已经司空见惯。亨利认为,统计学可以广泛运用于政策研究和评价研究,即通过向社会公众展现统计信息以避免混淆视听,并且认为制定和展现统计数据有三个基本原则:可理解性、可解释性和可比较性。可理解性保证了不需要掌握专业的统计方法就能理解统计信息;可解释性保证了统计信息可以用熟悉、具体的数据单位来解释;可比较性保证了统计信息有标准的度量尺度,可以做出横向和交叉比较。哈尔则高度认可统计的预测功能,认为统计是可以预测未来的无价之宝。可见,统计承担着通过搜集和筛选信息来说明社会现状、并对未来走势进行预测的重任

1.2 统计学的基本概念

1、个体:个体是指统计分析根据研究目的所确定的最基本的研究对象单位,所以个体又称为观察单位

例:分析业务人员的报销费用,则人为观察单位

2、变量:根据研究目的确定研究对象,然后对研究对象的某项目的或研究指标进行观察(或测量),这种观察项目或研究指标称为变量(variable);

  • 连续变量(continuous variable):也叫区间变量。取值范围是一个区间,可以在该区间中连续取值,并且一般有度量单位。例:身高、体重、金额

  • 特点:有大小之分,各取值之间的间距明确

  • 离散型变量(discrete variable):取值范围是有限个值或者一个序列构成的。

  • -分类变量:表示分类情况的离散型变量又称为分类变量

    • 有序分类变量:例:服务满意度(满意、一般、不满意)

    • -特点:有大小之分,但是各类别间的间距大小不明。比如“高”和“中”之间的差距与“中”和“低”之间的差距我们无法判断相差多少

    • 无序分类变量:例:血型(A、O)、民族(汗、满)– 特点:无大小之分,仅知道属于不同类别

    • 两分类变量(单独摘出):性别(男、女)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-awLsHTny-1654679551057)(C:\Users\萧\AppData\Roaming\Typora\typora-user-images\image-20220608163935691.png)]

连续变量、有序变量、无需变量间的信息量越来越少,在丢弃一部分信息量的前提下,可以将变量向信息量减少的方向转换。类别超过5类的时候可以把类别编码做逆向转换。

3、变异:同质个体的某指标(变量)值的差异称为个体变异(individual variable)

在这里插入图片描述

  • 统计学就是研究变异规律的学科,不存在变异的问题不属于统计学的研究范畴。或者说正是因为存在变异,才有了统计学的用武之地。
    • 对于无变异的常量问题,或者严格的数学函数问题,并非统计学的应用领域。

4、总体(population):根据研究目的确定的同质所有个体某指标观察值(测量值)的集合。

  • 有限总体(finite population):数量稳定
  • 无限总体(infinite population):不知道数量,例:糖尿病人口 可能在随时发生变化

5、样本(sample):在一个较大范围的研究对象中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集合被称为样本。

6、随机抽样(random sampling):在抽样研究中随机抽出一部分个体进行观察或测量的过程称为随机抽样。

  • 本质:每个个体最终是否入选在抽样进行前是不可知的,但是其入选可能性是确切可知的(多数情况下为等概率)
  • 注意:随机 != 随便

7、统计量(statistic):刻画样本特征的统计指标称为统计量。(平均水平、离散程度)

在这里插入图片描述

8、总体参数(parameter):刻画总体特征的指标称为总体参数,例如总体中某个指标的个体变量值的平均数称为总体平均数。

9、推估:从样本的统计量回推总体参数。

10、抽样误差(simple error):许多总体指标是未知的,需要用相应的样本统计量对其进行估计。由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差。

11、随机事件:随机现象某个可能的观察结果称为一个随机事件。如:扔一次硬币正面朝上,这个结果就是一次随机事件。

12、频率(frequency):观察到的随机事件某个结局的出现频次/比例。

13、概率(probability):刻画随机事件发生可能性大小的指标,其取值介于0和1之间。不能被直接观察到,但可以通过频率估计,实验次数越多,估计约精确。

14、小概率事件:在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是统计推断的基础。

15、频数(Frequency):又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。按分组依次排列的频数构成频数数列,用来说明各组标志值对全体标志值所起作用的强度。各组频数的总和等于总体的全部单位数。频数的表示方法,既可以用表的形式,也可以用图形的形式

基于关系和因果的统计学分类

在这里插入图片描述

第二话

数据的描述
  1. 用图表描述:
    ①统计类:
    table() 生成频数分布表
    prop.table() 将频数分布表转化为比例
    addmargins() 给频数分布表添加边际和或边际比例
    barplot() 生成条形统计图

img

pie() 生成饼图

这里写图片描述

②分布类:
hist() 生成直方图,观察变量内的分布

这里写图片描述

stem() 生成茎叶图,观察变量内的分布

这里写图片描述

boxplot() 生成箱线图,观察变量内的分布或对象间的变量水平比较

这里写图片描述

plot() 生成散点图,观察变量间的分布关系

radarchart() 生成雷达图,观察样本间的相似性。package(fmsb)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
[外链图片转存中…(img-i3VBO7Ep-1713383731411)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 8
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值