自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 自由度 集中趋势

自由度,英文称degree of freedom,简称DF,是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,通常用在抽样分布中。假如df=n-k,则其中n为样本含量,k为被限制的条件数或变量个数。集中趋势,英文称central tendency,是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。其在中心附近的观察值数目较多,远离中心的较少,常

2013-12-30 23:14:40 804

转载 线性回归 高斯曲线 对数正态分布

线性回归        回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。       在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条

2013-12-28 23:14:44 6914

转载 数据分析的步骤有哪些?

数据分析有极广泛的应用范围,这是一个扫盲贴。典型的数据分析可能包含以下三个步:1、探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。3、推断分

2013-12-28 22:43:04 1302

原创 对照组

对照组应注意:1   要尽量消除无法变量的影响2  对照要明显3  要考虑现实性及可靠性

2013-12-26 23:25:58 1441

转载 数学之美系列二:谈谈中文分词

谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”  分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。 

2013-12-20 19:58:25 690

转载 逻辑回归与决策树在分类上的一些区别

营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解决“分类”问题的高手。用不同的算法解答同样的问题,自然引出了两者孰优孰劣的讨论,但迄今为止,仍然没有一个明确的结论。出现这种情况是意料之中的,因为两者的具体表现取决于数据状况和挖掘人员的水平。从算法本

2013-12-20 19:24:22 1108

原创 区间估计 抽样框 百分位数 校正值 对照组 完全随机设计 全面调查 因变量

一、 区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。区间估计的方法

2013-12-19 21:01:33 2434

转载 什么是拉丁方设计?

拉丁方设计(Latin square design)使研究人员得以在统计上控制两个不相互作用的外部变量并且操纵自变量。每个外部变量或分区变量被划分为一个相等数目的区组或级别,自变量也同样被分为相同数目的级别。拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区组,然后将自变量的级别分配到表中各单元中。简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。具

2013-12-19 20:12:17 7767

转载 Excel透视表实现选取不同组的最大组

今天一个朋友问问一个这样的问题,如何实现选取以下各组的最大组。源数据大概如下:她要的结果是得到上海门店业绩最高的那行,还有北京和深圳。当然她的数据有上千行。不然我们就直接用眼睛看了,不考虑更多方法了,哈哈。她的要求还包括如果是并列的业绩,那么两列都有显示。Sharpen 我本来想用函数的,但考虑了下,函数的话,很可能用到数组公式。所以我又想了其他方法。后来发

2013-12-14 23:43:26 949

转载 什么是统计检验

建立假设 统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。 求抽样分布 在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。由于数学上已经取得的成果,实际上统计工作者要

2013-12-14 23:31:46 1699

转载 什么是统计方法

统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一统计方法  统计方法个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。正确选择统计方法的依据是:①根据研究的目的,明确研究试验设计类型、研究因素与水平数;②确定数据特征(是否正态分布等

2013-12-14 23:26:02 1103

转载 去一个网段用静态路由怎么走两条路径

路由就是把信息从源传输到目的地的行为。形象一点来说,信息包好比是一个要去某地点的人,路由就是这个人选择路径的过程。而路由表就像一张地图,标记着各种路线,信息包就依靠路由表中的路线指引来到达目的地,路由条目就好像是路标。在大多数宽带路由器中,未配置静态路由的情况下,内部就存在一条默认路由,这条路由将LAN口下所有目的地不在自己局域网之内的信息包转发到WAN口的网关去。宽带路由器只需要进行简单的WAN

2013-12-06 20:26:07 6000

转载 最快速合并大量csv文件

相信大家一定遇到过几十个或上百个,甚至上千个文件,需要复制到一个工作表里。但一直没找到特别给力的方法,用过易用宝,也用过郭老师的公益插件效率专家。但好像只是解决了源文件是xls时的问题,如果是csv,好像就不行了。但我们后台数据的导出普遍都是csv格式的,是不是非常抓狂?今天来分享一个超给力速度超快的方法。方法不是本人sharpen 原创的,是转载学习的。因为我在工作中就遇到合并300个文件,我感

2013-12-05 23:25:58 9927 1

转载 在Excel中使用SQL语句实现精确查询

今天在微博上看到@数据分析精选 分享的一篇文章,是关于《在Excel中使用SQL语句实现精确查询》,觉得非常受用,分享给大家。微博上有人回复评论说直接用vlookup、或者导入数据库进行查询处理就好了,岂不是更高效、更灵活;其实给人的第一直观感觉是这样子的,但是我们多想一步,这篇文章的应用场景、使用前提条件是什么?我想到的有以下几个方面:①数据量不是很大的时候;②数据结构导入数据库不是很合

2013-12-04 09:38:11 2222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除