《商务与经济统计》(一)

第一章:数据与统计资料

1、数据是指搜集和分析的事实和数字。

a)、统计分析方法是否适合一个特定的变量,取决于变量是分类变量还是数量变量,前者的统计方法极其有限(见后)。

b)、分类型数据既可以是非数值型的也可以是数值型的,既可以用名义尺度度量也可以用顺序尺度度量;只有当数据是数量型的,算术运算才有意义。

2、

3、统计软件的数据来源一般为Excel 表格和数据库,还有就是公司内部记录、专门从事搜集和保存数据的第三方、行业协会、互联网和政府机构。另外就是自己做实验或问卷调查取得数据。在数据采集过程中是会产生误差的,因此对数据要有敬畏之心。

4、描述统计:用表格、图形和数值方法来汇总数据。

统计推断:利用样本数据估计总体特征并进行假设检验的过程。

5、评估数据的可靠性:分成训练数据集+检验数据集,前者预测后者。

6、数据挖掘贯穿于统计的始终,通过计算机将海量数据分类汇总,建立模型,自动预测。

 

第二章:描述统计学中的表格法和图形法

1、

复合条形图:

 

结构条形图:

交叉分组表:汇总两个变量数据的一种方法。

 

2、数量型数据频数分布:a、确定互不重叠的组数,b、确定每组宽度,c、确定组限。(注:组中值指上组限和下组限的中间值)。

 

打点图:(可参考Mr.慢游的统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图 

累积分布:表示≤每一组上组限的数据项个数,而不是表示每一组的频数。

 

3、辛普森悖论

当我们合并或综合两个或以上的交叉分组表中的数据时,合并的前后会得出完全相反的结论,出现这种悖论的原因是合并基数和百分数时可能出现的误区,由于这种可能性,我们在做出判断之前应考虑是根据未综合还是综合交叉分组表得出的结论。

 

第三章:描述统计学—数值方法

1、 平均数 是总体的均值,当权重不同时使用加权平均数,但平均数容易受异常值的影响,所以出现了 中位数 几何平均数 通常应用了财务、投资、银行业问题中,分析增长率的问题,书中提到书中提到一只基金增长率的问题,使用几何平均数求出的增长率为2.9275,而同样一只基金,使用算术平均数求出的年均增长率为5.04%,懂得几何平均数可以防止被经纪人忽悠。 众数 的作用不言而喻。 百分位数 的计算方法可以让你计算出某个百分位置所对应的数,而 四分位数 是百分位数的一种特殊形式。
样本均值与总体均值( 和  µ);
几何平均数:
四分位数:Q1、Q2、Q3(第25/50/75百分位数)(升序)
    

2、变异程度可以让你在相同平均数的情况下了解到谁更稳定,常用的度量方式有极差,四分位数间距,方差,标准差,极差容易受异常值的影响,为了克服异常值,我们使用四分位数间距,求出中间50%数据的极差。方差是比较两个或以上变异程度的有用工具,注意:样本方差和总体方差的求法不同。方差为什么要转化成标准差?标准差和原数据的单位度量相同,更容易进行比较。标准差系数也是反映数据的变异程度,标准差系数越小数据越稳定。

a)、极差=max-min;

b)、四分分间距interquartile range (IQR)=Q3-Q1

c)、方差variance:注意总体方差σ2与样本方差s2的异同;标准差;

标准差系数:(标准差*100/平均数)%

3、频数分布直方图是向左偏还是右偏取决于偏度为正还是负,偏度由计算机计算,负为左偏,正为右偏,利用平均数和中位数的大小也可以判断偏度为左还是右,右偏时平均数大于中位数,左偏是,中位数大于平均数。标准分数用于求数值的相对位置,当标准分数大于0表示高于平均数,反之;切比雪夫定理与经验法则的不同之处在于前者适用于任何分布,后者适用于正态分布。

z-分数(标准分数):Zi=(Xi-)/s(样本标准差)    例:Z1=1.2,表示x1比样本平均数大1.2个标准差。

切比雪夫定理:与平均数的距离在z个标准差之内的数据所占比例至少为(1-1/z2),其中z是大于1的任意实数。

经验法则(3-sigma法则/68-95-99.7法则):68%的数据将分布在的第一个标准偏差之内,95%和99.7%将落在均值的前三个标准偏差之内(只针对正态分布)。

异常值的检测方法有两种

1° 使用z-分数,如果数据分布符合正态分布,几乎所有的数据都在三个标准差之内,之外的视为异常值。

2° 使用分位数确定上限和下限。max=Q3+1.5*IQR   min=Q1-1.5*IQR   

4、箱形图五数概括法(min/Q1/Q2/Q3/max)的数据图形汇总。

5、两变量间关系的度量(协方差&相关系数)

协方差

用于计算两变量间的线性关系,大的正值表示强的正线性相关关系,大的负值表示强的负线性相关关系。

但是,由于计量单位的变化会出现协方差变大,但是相关关系并无变化。为避免这种情况,我们使用相关系数代替协方差。

相关系数在-1和+1之间,值得我们注意的是,相关系数提供的是线性关系而不是因果关系。

 

【若X和Y不相关,  ,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系;

若  ,则X和Y不相关。

若X和Y独立,则必有  ,因而X和Y不相关;

若X和Y不相关,则仅仅是不存在线性关系,可能存在其他关系,如  ,X和Y不独立。

第四章:概率

加法公式:P(A U B) = P(A) + P(B) - P(AB) 

 P(A|B)=P(AB)/P(B) 为事件B发生条件下,事件A发生的条件概率。

乘法公式:P(AB) = P(A)P(B|A)
更一般地:P(A1 A2 ... An) = P(A1)P(A2 / A1)P(A3 / A1 A2) ... P(An / A1 A2 ... An-1)

贝叶斯公式

 

第五章:离散概率分布

离散型随机变量、离散型随机变量的分布律/列(形式、性质)、随机变量的两个关键参数——期望方差/标准差、分布函数:F(x)=P(X≤x);几种常见的离散型随机变量概率分布——二项分布、泊松分布、超几何分布等;

二元随机变量/二元随机变量的分布函数:联合概率分布(律/函数)、边际分布(律/函数)、条件分布(律/函数);

协方差+相关系数

离散型随机变量的独立性:

 

第六章:连续型概率分布

联合概率密度函数、边缘概率密度函数、条件概率密度函数、

(二元)均匀分布+(二元)正太分布+指数分布

 

连续型随机变量的独立性:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 6
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值