统计学
文章平均质量分 71
memoryqiu
这个作者很懒,什么都没留下…
展开
-
用户生命周期模型
本文转载自: https://blog.csdn.net/l18930738887/article/details/50818878一、为什么要定义用户生命周期?用户生命周期是为了定位每个用户在哪个阶段,对于某个阶段的用户进行不同的营销策略。比如初期用户:还没有养成使用习惯,需要外在力量进行推动达到成熟习惯。二、怎么定义?使用RFM模型中的RF模型。 凭次划分标准:购买1~...转载 2018-05-16 10:58:05 · 13132 阅读 · 1 评论 -
[统计学理论基础] 中心极限定理与大数定律的区别
一. 中心极限定理下图形象的说明了中心极限定理 当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。 如上图,这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布...原创 2018-07-02 21:52:01 · 29350 阅读 · 0 评论 -
[统计学理论基础] 统计方法—F检验
F检验(F-test)最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。 它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。 其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。计算(1)样本标准偏差的平方,即: 两组数据就...原创 2018-07-02 21:00:40 · 29343 阅读 · 1 评论 -
[统计学理论基础] 统计方法—T检验
T检验亦称student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 它与f检验、卡方检验并列。实例以单总体t检验为例说明: 问题:难产儿出生数n=35,体重均值为3.42,S =0.40,一般婴儿出生体重μ0=3.30(大规模调...原创 2018-07-02 20:55:22 · 3934 阅读 · 0 评论 -
[统计学理论基础] 假设检验
概念假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是: 根据问题的需要对所研究的总体作某种假设,记作H0; 选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知; 由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。 显著性水平: 它是在进行假设检验时事先确...原创 2018-06-26 22:30:08 · 1636 阅读 · 0 评论 -
[统计学理论基础] 贝叶斯定理
贝叶斯定理贝叶斯定理是一种在已知其他概率的情况下求概率的方法: 对于贝叶斯公式,记住AB AB AB,然后再做分组:”AB = A×BA/B”。首先,对于贝叶斯定理,还是要先了解各个概率所对应的事件。P(A|B) 是在 B 发生的情况下 A 发生的概率,也称作A的后验概率。P(A) 是 A 发生的概率,P(A)是A的先验概率或边缘概率,称作”先验”是因为它不考虑B因素。P(...原创 2018-05-27 19:51:43 · 1783 阅读 · 0 评论 -
长尾效应
长尾效应英文名称Long Tail Effect。“头”(head)和“尾”(tail)是两个统计学名词。正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,分布在尾部的需求是个性化的,零散的小量的需求。 而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量...原创 2018-05-27 15:57:27 · 14353 阅读 · 0 评论 -
[统计学理论基础] 方差 & 协方差 & 标准差
统计里最基本的概念就是样本的均值、方差和标准差。 通过一个含有n个样本的集合,依次给出这些概念的公式描述。 均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,标准差描述的则是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8...原创 2018-05-27 15:10:23 · 7238 阅读 · 0 评论 -
[统计学理论基础] 协方差与相关系数
协方差二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数,协方差代表了两个变量之间的是否同时偏离均值。 从协方差的定义可以看出,它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可...原创 2018-05-27 14:43:31 · 3721 阅读 · 0 评论 -
关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算
本文转载自:https://blog.csdn.net/wo334499/article/details/51698810例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的面包的有100人。关联规则 关联规则:用于表示数据内隐含的关联性,例如...转载 2018-05-16 11:37:24 · 2465 阅读 · 0 评论 -
[统计学理论基础] 置信区间
1. 点估计和区间估计例如:刮刮卡 2. 置信区间置信区间又称估计区间,是用来估计参数的取值范围的。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。2.1 计算步骤第一步:求一个样本的均值 第二步:计算出抽样误差。 人们经过实践,通常认为调查: 100个样本的抽样误差为±10%; 500个样本的抽样...原创 2018-07-02 23:03:54 · 4664 阅读 · 0 评论