统计学
WalkingAlien
这个作者很懒,什么都没留下…
展开
-
数据的类型
Stanley Smith Stevens在1946年《科学》中将变量分为4类。这种分类被普遍认可。有了这四个维度,世间的一切信息都可以被转化为数据。原创 2016-11-08 14:38:48 · 574 阅读 · 0 评论 -
随机样本,方便样本与资源回应样本
随机样本(Random Sample)是指来自总体的、能够正确反映总体情况的元素总称。满足如下条件: (1)被研究的总体要有明确的定义。 (2)总体的每个个体有一个已知的概率包含在该样本中。 (3)抽样过程中必须遵循随机原则。方便样本(Convenient Sample)是指研究者出于方便性的原因而选取的“唾手可得”的样本。自愿回应样本(Volunta原创 2016-11-08 15:25:26 · 3563 阅读 · 0 评论 -
csv与tsv
TSV tab separated values(为用制表符tab分隔的文件) name age 张三 20 李四 30CSV comma separated values(为用逗号分隔的文件)name,age张三,20李四,30两者均是以纯文本形式存储的表格数据,可由表格软件导出或读入,编码方式是可以自行定义的。本质而言没有太大区别。原创 2016-11-09 15:10:04 · 5295 阅读 · 0 评论 -
大数据的4V特征
Volume (大量) Variety (多样) Velocity(高速) Value (价值) 大数据是通过对大量数据的分析得出个体特征的分析,即以大见小;而统计学是从一部分数据中推敲整体的特征。但是从整体与部分来说,大数据本身也还是一种抽样。大数据与统计学,两者并不矛盾。原创 2016-11-11 21:07:27 · 23077 阅读 · 1 评论 -
箱形图
——来自维基百科box-plot又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。这组数据显示出: 最小值(minimum)=5 下四分位数(Q1)=7 中位数(Med)=8.5 上四分位数(Q3)=9 最大值(maximum )=原创 2016-11-15 14:52:02 · 2293 阅读 · 0 评论 -
零假设和备择假设
零假设(Null Hypothesis):统计检测时的一类假设。零假设的内容一般是希望证明其错误的假设。与零假设相对的是备择假设(对立假设,Alternative Hypothesis),即不希望看到的另一种可能。(个人理解:比如我现在要做一些实验证明阳光对植物的影响,我是希望发现阳光与植物是有一些关系的,这种情况下我做原假设/零假设即是:阳光对植物没有影响。备择假设:阳光对植物有影响。)第一类错误原创 2016-11-26 15:31:23 · 28618 阅读 · 0 评论