统计学
feng_lilan
这个作者很懒,什么都没留下…
展开
-
现代统计分析方法与应用第一章
一.概述1. 描述统计:是对所收集的数据资料进行加工整理、综合概括,通过图示、列表和数对资料进行分析和描述。2. 推断统计:是在搜集、整理观测样本数据的基础上,对有关总体作出推断,其特点是根据随机性的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形表述的推断。二.研究角度:三.流程:1. 提炼具体问题,确定欲达目标2.原创 2013-09-17 20:14:52 · 1536 阅读 · 0 评论 -
交叉验证(Cross Validation)方法思想简介
原文链接:http://blog.csdn.net/chl033/article/details/4671750交叉验证(CrossValidation)方法思想以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),转载 2015-01-05 09:40:20 · 1153 阅读 · 0 评论 -
单位根检验
本文来源:http://www.docin.com/p-241451370.html转载 2014-11-20 09:38:02 · 3995 阅读 · 0 评论 -
参数检验与非参数检验
一、参数检验原创 2014-05-15 21:16:43 · 3691 阅读 · 0 评论 -
对照组
对照组应注意:1 要尽量消除无法变量的影响2 对照要明显3 要考虑现实性及可靠性原创 2013-12-26 23:25:58 · 1424 阅读 · 0 评论 -
置信水平
综述 置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 置信度也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的转载 2014-01-07 18:14:52 · 3928 阅读 · 0 评论 -
著名统计学者谢邦昌数据挖掘访谈
著名统计学者谢邦昌数据挖掘访谈1.记者:Data Mining包含哪些主要功能?谢邦昌:Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。Classification是根据一些变转载 2014-01-07 18:03:26 · 1724 阅读 · 0 评论 -
数学之美系列二:谈谈中文分词
谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。转载 2013-12-20 19:58:25 · 683 阅读 · 0 评论 -
逻辑回归与决策树在分类上的一些区别
营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解决“分类”问题的高手。用不同的算法解答同样的问题,自然引出了两者孰优孰劣的讨论,但迄今为止,仍然没有一个明确的结论。出现这种情况是意料之中的,因为两者的具体表现取决于数据状况和挖掘人员的水平。从算法本转载 2013-12-20 19:24:22 · 1102 阅读 · 0 评论 -
区间估计 抽样框 百分位数 校正值 对照组 完全随机设计 全面调查 因变量
一、 区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。区间估计的方法原创 2013-12-19 21:01:33 · 2406 阅读 · 0 评论 -
什么是拉丁方设计?
拉丁方设计(Latin square design)使研究人员得以在统计上控制两个不相互作用的外部变量并且操纵自变量。每个外部变量或分区变量被划分为一个相等数目的区组或级别,自变量也同样被分为相同数目的级别。拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区组,然后将自变量的级别分配到表中各单元中。简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。具转载 2013-12-19 20:12:17 · 7657 阅读 · 0 评论 -
自由度 集中趋势
自由度,英文称degree of freedom,简称DF,是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,通常用在抽样分布中。假如df=n-k,则其中n为样本含量,k为被限制的条件数或变量个数。集中趋势,英文称central tendency,是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。其在中心附近的观察值数目较多,远离中心的较少,常转载 2013-12-30 23:14:40 · 797 阅读 · 0 评论 -
线性回归 高斯曲线 对数正态分布
线性回归 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条转载 2013-12-28 23:14:44 · 6881 阅读 · 0 评论 -
什么是统计检验
建立假设 统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。 求抽样分布 在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。由于数学上已经取得的成果,实际上统计工作者要转载 2013-12-14 23:31:46 · 1684 阅读 · 0 评论 -
什么是统计方法
统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一统计方法 统计方法个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。正确选择统计方法的依据是:①根据研究的目的,明确研究试验设计类型、研究因素与水平数;②确定数据特征(是否正态分布等转载 2013-12-14 23:26:02 · 1096 阅读 · 0 评论 -
现代统计分析方法与应用第三章
定性数据的X2检验一、多项分布与X2检验一向分类:按某一种因素来进行的分类二向分类(列联表):分类是按两种以上的影响因素来进行的 X2~ X2(k-1)二、列联表分析三、一致性检验一致性X2检验与独立性X2检验之间是有差别的在做独立性X2检验时,典型的抽样程序是从一个总体抽出一个样本,然后根据两种分类准则对样本实体进行交叉分类。在进行一致性检验时,我原创 2013-09-17 20:58:42 · 1093 阅读 · 0 评论 -
现代统计分析方法与应用第二章
一、 统计数据的整理与描述1. 总体与样本总体:把所要调查研究的事物或现象的全体称为总体样本:把组成总体的每个元素(成员)称为个体,一个总体中所含的个体的数量称为总体的容量。2. 统计量:样本的函数,它不依赖于任何未知参数 3. 变异系数:若两组数据的计量单位相同,且均值一样,可以利用标准差比较两组数据的离散程度,但当两组数据原创 2013-09-17 20:31:25 · 1099 阅读 · 0 评论