数据分析
文章平均质量分 85
虾神说D
攻城狮
展开
-
从新手运气到幸存者偏差
赌徒都相信“初学者总是有运气”的。几乎所有的赌徒都认为“虽然后来运气会慢慢变差,但是刚开始赌的时候总是很走运的”。抛开职业赌场,庄家放长线吊大鱼的不算。就算在股市上也经常有这种案例,新人入行的时候,运气都特别的好。是否真有新手运气这一回事呢?原创 2014-10-01 22:55:20 · 4218 阅读 · 2 评论 -
抛硬币的两种思维方式
假设硬币是公平的,因为每次抛出硬币得到正面与反面的可能性都是相同的。我把它抛出了99次,每次都正好得到正面。那么,我下一次得到反面的概率是多大?a:毫无疑问,当然是50%,因为统计学中的样本独立性,不管你前面得到了什么结果,与下一次的结果都无关,所以可能性依然是50%。b:第100投出的硬币,得到反面的概率不会超过1%。原创 2014-10-14 20:13:57 · 5742 阅读 · 1 评论 -
全新定位方式:电量定位
智能手机用户都不愿意让《糖果粉碎传奇》或《音乐雷达》这样的应用程序通过GPS获取自己的活动信息,但研究人员发现,安卓(Android)智能手机会把用户的 地理 位置泄露给设备上已安装的所有应用程序,而且是通过一种不太可能的数据泄露渠道:手机的电量消耗情况。 美国斯坦福大学和以色列国防研究公司Rafael的研究人员开发出了一种名为PowerSpy的技术,并称这项技术仅凭追踪Android手转载 2015-02-21 10:17:57 · 1967 阅读 · 0 评论 -
空间点数据分析与ArcGIS
自然界中任何一个带有位置信息的个体都能被抽象为一个空间点数据,“点”的模式在自然与社会经济中都是普遍存在的,对点数据的分析,主要分为两大类:1、点数据本身模式的识别和探索。2、通过点模式的显示的信息,进行进一步的预测和知识总结。原创 2015-05-30 12:01:15 · 26623 阅读 · 1 评论 -
使用Pycluster包进行聚类分析实例
人类在几千年前就认识到了所谓的聚类和分类,是用来认知和描述万事万物之间关系的主要方法。不论是否受过高等教育,聚类和分类的思想都根深蒂固的在人类的思想中。Pycluster包是东京大学医学研究所,人类基因研究中心的米歇尔德勋(Michiel de Hoon),星矢井本(Seiya Imoto),宫野悟(Satoru Miyano)等人编写的开源算法工具包,提供了C/C++、python和 Perl三个版本原创 2015-06-03 21:33:46 · 8953 阅读 · 9 评论 -
预言性的基于事例推理技术
预测分析平台使企业能够充分利用所有的企业数据——从历史的结构化市场数据到新形式的非结构化大数据,来驱动我们更快更明智进行决策,并且还可以针对系统故障进行预先的告警。用户通过构建各种复杂的数学模型来探讨各种变量之间的关系,以揭示以前隐藏在数据中的一些模式,识别各种分类,进行关联分析和执行精准细分。虽然其中的很多技术都不是最新的,但是这些基本技术也在不断进步——利用多核和并行处理技术,可以将整个数据库加载到内存中,以实行原创 2015-07-11 18:55:07 · 1855 阅读 · 1 评论 -
白话空间统计之:空间异质性
横看成岭侧成峰,远近高低各不同。 不识庐山真面目,只缘身在此山中。 ——苏轼《题西林壁》 庐山本体就在那个地方,它本身是不会发生任何变化的,但是因为你所处的位置不同,获得的观察结果也不同。原创 2015-07-28 17:02:51 · 52707 阅读 · 11 评论 -
白话空间统计之五:空间关系的概念化(下)
空间关系的概念化,在ArcGIS中,一共是有7种。前面我们说了反距离、距离范围、无差别区域和面邻接四种,后面还有三种今天一并说完。 后面的几种,其实也都是在前面的那些“简单粗暴”的模型中发展而来的,正所谓“大道至简”一点也没错。 五、K最近相邻要素 所谓的K最近相邻,就是指在一定的范围内,都算相邻的要素,这个概念是“距离范围”模型改良之后生成的。距离范围是以一定距原创 2015-08-09 17:31:56 · 12345 阅读 · 3 评论 -
白话空间统计十二:R语言对点数据分析的实现(2)可视化
昨天我们简单的讲了R语言如何对点数据进行分析,今天继续把这个内容说法,其实R语言是非常强大的,他的强大之处,可能超出了你的想象的。 不过R语言也有缺点,最大的缺点就是所有的一切分析过程,都要通过敲命令的方式来实现,对于推广了超过10年的鼠标这种喜闻乐见的标准电脑外设来说,全部采用文本模式进行交互仿佛已经是远古时期的标志一样(不过很多电视剧里面,电脑高手的表现都是在键盘上运指如飞,他们从来不原创 2015-08-23 18:40:43 · 6261 阅读 · 1 评论 -
白话空间统计之:Moran's I(莫兰指数)
Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred Pierce Moran),在1950年提出的。一般是用来度量空间相关性的一个重要指标。原创 2015-07-29 16:58:07 · 145691 阅读 · 15 评论 -
白话空间统计十四:高/低值的聚类(上)
衡量空间自相关的时候,用的参数是Moran'I(莫兰指数),那么在衡量搞低值聚类的时候,用的也是一个指数,这个指数叫做 General G 指数。原创 2015-08-26 09:57:57 · 32534 阅读 · 3 评论 -
白话空间统计之四:P值和Z值(上):零假设
本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的“不明觉厉”。 首先是空间统计里面很神秘的两个值:P值和Z值。 要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的。首先,统计学里面,有一个叫做“零假设”的概念非常厉害,一定要说说。原创 2015-07-30 16:33:05 · 36221 阅读 · 0 评论 -
白话空间统计十四:高/低值的聚类(下)
上一篇讲了General G统计方法的一般性解释,那么这篇继续把这个内容讲完。 开始我们说了,如果高值和低值区域同时出现了聚类,就变成了拿这板砖互拍的情况。但是还有的时候,出现更奇葩的情况,比如你用其他的工具(比如局部莫兰指数、热点分析一类的,这些工具以后我们会慢慢说到。)计算出来,发现这份数据统计特征值真是极高的,但是同样一份数据,到了General G统计算法里面之后,发现,咦,怎原创 2015-08-28 09:40:30 · 18033 阅读 · 2 评论 -
慎用P值:它让研究结果不可靠
慎用P值:它让研究结果不可靠 2015-08-03 雷吉娜·鲁佐虾神daxialu 撰文 雷吉娜·鲁佐(Regina Nuzzo) 翻译 郭凯声本文作者 雷吉娜·鲁佐是一位自由科学撰稿人,也是美国加劳德特大学统计学副教授。对于马特·莫托尔(Matt Motyl)而言,2010年中有那么短暂的一刻,一项耀眼的科学荣誉眼看就唾手可得:他发现偏激人士的确是以“非黑转载 2015-08-03 17:41:14 · 8942 阅读 · 0 评论 -
白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)
空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果。在研究的时候,有种叫做“空间尺度”的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我)。 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数;也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个原创 2015-08-30 18:05:00 · 49347 阅读 · 10 评论 -
白话空间统计之四:P值和Z得分(下)
上篇讲了P值与Z得分的一些基本概念,大家其实也都知道,P值和Z得分其实是有一定的相应关系的,Z得分有正负两种结果,而P值有显著和不显著两种可能。如果按照我们一般的思维,P值和Z得分就应该有4种组合。不过实际上他们只有三种组合,如下:可以看见,只要P值不具备统计学上的显著特征,那么Z值不论是正负,都是一个结果。那么为什么P值如此之重要呢?上一篇文章说过了,P值是用原创 2015-08-03 17:43:57 · 33253 阅读 · 6 评论 -
空间统计之七:中心要素
写到这一章,空间统计系列的内容已经写了七章了,前面的所有内容包括了空间统计的几个基本理论基础,如空间自相关、空间异质性、莫兰指数、空间关系概念化以及他们之间的量化度量方式P值和Z得分等,那么空间统计学与经典统计学在理论上的不同点,就说得差不多了。毕竟空间统计学还是发源于经典统计学上面的,经典统计学上面的很多概念,在空间统计学里面也照样能用得上,所以从今天开始,我们会介绍一些经典统计学上的概念内容在原创 2015-08-16 18:19:16 · 7010 阅读 · 0 评论 -
空间统计之八:平均中心和中位数中心
本来应该分成两篇来写的,但是这两种中心的算法和应用都很接近,所以就合并成一篇文章来写了。 昨天讲了中心要素,因为中心要素是要从原来的要素中去选择一个已有的,所以算出来的,与我们观念和感知中的“中心”这个概念,还是差距很大,所以今天来讲讲这两种中心的计算方式和应用范围。 我们来看看三者之间的不同,如下图: 可以看到,计算出来的结果各有不同,首先中心要素我们就不说了,大家原创 2015-08-17 15:33:23 · 13605 阅读 · 2 评论 -
白话空间统计番外篇:中位数中心算法
其实我一直是不愿意填算法坑的……主要是自己的数学水平很一般,很容易出现填坑不成自己反被埋的情况,但是这个坑不填又不行,所以在填坑之前说明:这个仅是虾神我自己的理解,不代表原文(限于能力问题,数学论文确实不怎么能读透),如果有疑惑或者错误,请自行查阅原始论文,虾神只负责科普。原创 2015-08-18 15:46:24 · 6252 阅读 · 2 评论 -
白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (下)
书接上一回。 多距离空间聚类分析这个工具与其他的工具计算出来的结果都不太一样。按照空间分析软件的一般规律,扔进去的是一个空间数据,那么返回的自然也是一个空间数据…… 不过在前面也很多分析工具告诉我们,可能就会返回几个数据给你,比如莫兰指数,给你几个值来表示一下。这个多距离空间聚类分析工具为为什么会让我们觉得神奇呢?因为他的返回值很神奇——它会返回一堆的数字给你。返回的值原创 2015-09-02 12:07:35 · 36260 阅读 · 23 评论 -
白话空间统计之五:空间关系的概念化(上)
空间统计分析与传统的统计分析,最大的区别就在于空间统计学把空间信息和空间关系都直接整合到了算法之中。如果取消掉空间相关的特性,空间统计学与传统统计学就没有多大的区别了。 因此在做空间统计时,都要求在分析之前进行“空间关系的概念化”。这个名词说起来很绕口,其实意思就是,你需要在分析时候,使用的“空间”这一概念,进行一个定义。 通俗的来说,空间很多时候就等于“距离”,特别是在生活中,我原创 2015-08-06 16:40:16 · 19212 阅读 · 1 评论 -
R-ArcGIS探秘(1)安装以及Sample运行
在今年的全球用户大会上,Esri官方公布了R-ArcGIS的官方示例,在ArcMap和ArcGIS pro中,直接通过Toolbox可以调用R的分析工具包,将R的分析能力直接作用在ArcGIS上面。打通了两大工具之间的壁垒,不能不说,是分析界的一大盛事啊。 视频截图如下: 总所周知,R在数据分析领域的地位,犹如JAVA在编程语言领域的地位,简直就占据了开源软件的头把交椅原创 2015-08-07 10:58:24 · 10447 阅读 · 21 评论 -
白话空间统计之五:空间关系的概念化(中)
空间关系的概念化(中) 上文说的两种空间关系概念化虽然是最常用,但是总给人一种简单粗暴的感觉,所以业界和学术界由搞出了各种各样的空间关系概念化的模型。 首先,就是把两种最简单的概念化给组合起来了,就是下面这种所谓的“无差别区域”法。 无差别的区域(Zone of indifference) 这个名词和翻译,总是让人感觉到怪怪的,但是实际上确很简单,其的意思就是“在一原创 2015-08-08 17:57:44 · 13558 阅读 · 1 评论 -
白话空间统计之十:标准距离
标准距离在空间统计里面也是一个常用的方法,因为它可提供有关中心周围要素分布的单一汇总度量值(此方法类似于通过标准差测量统计平均值周围数据值的分布)。原创 2015-08-20 13:54:24 · 9848 阅读 · 4 评论 -
白话空间统计十六:增量空间自相关
遇上瓶颈……所以进来更新稍微有点慢了……大家见谅点数据的密度计算,是一个很常用的分析方式,在计算密度的时候,最令人头痛的是如何去确定密度的距离,也就是密度收集区域的半径,那么从这句话看,也就知道我们这篇文章是干嘛的了。 距离,又见距离! 不同的情况下,分析空间数据对使用的距离是非常敏感的。对于不同的分析,使用的距离也是不同的。比如你要计算人的活动区域热点原创 2015-09-10 21:29:24 · 11567 阅读 · 8 评论 -
白话空间统计十一:线性方向平均值
前面我们说的都是点数据的分析,今天来说说一个用于分析线要素的算法(工具),就是线性方向平均值(LinearDirectional Mean )。 总所周知,线要素只有两个属性,一个是长度,第二个就是方向,而对于人类的认知来说,对方向的重要性丝毫不亚于位置的重要性。 对线数据进行统计的时候,首先就是了解他们的方向,如果只有一条线段,那么方向当然就不用统计了。但是如果线段数据非常多的时原创 2015-08-21 12:58:39 · 6606 阅读 · 1 评论 -
白话空间统计十二:R语言对点数据分析的实现(1)
前段时间,有人批评我写白话空间统计的博客是在写软文给ArcGIS平台和Esri打广告,话说这个实在是太恭维我了。如果读到空间统计,而且还能读懂的人,不可能没有听说过ArcGIS软件吧,这种情况到底是先有鸡还是先有蛋,自然一目了然了。 虽然虾神在Esri中国干了好多年了,给公司打打广告也是理所当然的事情。但是写博客的时候确实还真没有这个想法,不过既然有人批评了,那么虾神我先挑明一下这系列白话原创 2015-08-22 20:53:40 · 7209 阅读 · 6 评论 -
白话空间统计十九:热点分析(上)
通过得到的 z 得分和 p 值,我们可以知道高值或低值要素在空间上发生聚类的位置。但是这个工具的工作方式有些特殊:它查看邻近要素环境中的每一个要素。高值要素往往容易引起注意,但可能不是具有显著统计学意义的热点。要成为具有显著统计需意义的热点,要素应具有高值,且被其他同样具有高值的要素所包围。原创 2015-10-18 21:11:49 · 41069 阅读 · 3 评论 -
用Pycluster包在ArcGIS中实现聚类
本文是应师妹符博士的要求,专门写的科普文章,精通arcpy的同学可以直接跳过了。 前面曾经写了一篇文章,是用Pycluster包的kmeans算法,来实现聚类(前看前面的文章:《使用Pycluster包进行聚类分析实例》),实际上我觉得用R语言会更容易,不过因为“python大法好”的原因,我还是更喜欢这种面向码农的东西。 好了,下面进入正题。 首先你先要确定你安装的pyc原创 2015-10-23 11:35:46 · 10649 阅读 · 16 评论 -
白话空间统计十八:相关性分析
其实这一章开始想放到了番外篇里面。因为相关性分析是经典统计学里面最基础也是最重要的分析方法之一。题目还是取了个白话空间统计,所以总是有点怪怪的。 不过空间统计要是完全脱离经典统计学去谈,那就真是坠入魔道了……计量革命最主要的成果之一,就是促成了经典统计分析方法在地理学研究中的应用。直到今天,经典统计学还是计量地理学中最常用的手段。可以说,空间统计学仍然是在经典统计学理论上建立和发展起来的。原创 2015-09-20 22:29:45 · 21831 阅读 · 4 评论 -
你是探索者,还是归客?用大数据说话
——你是来回采矿的农民,还是浪迹天涯的英雄?公元14世纪,伟大的航海家克里斯托弗.哥伦布以及其他欧洲大陆的探险家在美洲登陆时,带来的第一个“礼物”是什么?好吧,你们肯定不知道,而且也不用瞎猜了,他们带来的是谈虎色变的流行病。西班牙人用无形的武器轻而易举的对付了那些无知的原住民们:天花、流感、水痘和麻疹;这些快速蔓延的流行病让侵略者们仅用了很少的努力就征服了美洲大陆。“其中的一个翻译 2015-11-09 21:42:06 · 2354 阅读 · 0 评论 -
白话空间统计十九:热点分析(下):结果解读以及用R语言实现
热点和获胜(选票的多少)是没有任何关系的,唯一的关系,就是热点区域表示没有杂质的获胜。用通俗的话来说,就是:在这个区域内,只要任何一个区域获胜,那么就可以推定,周边的区域一样会获胜。同理,冷区也是如此。原创 2015-11-20 20:45:08 · 28406 阅读 · 7 评论 -
R语言对地形数据进行三维可视化
通过R语言,可以对DEM数据进行可视化,无论是二维的可视化还是三维的可视化,都得心应手,先看看效果:1、二维可视化:栅格渲染+等高线2、三维可视化:网格白膜3、三维渲染可视化。下面通过R语言脚本,来解释如何制作这样的可视化效果:######################################原创 2015-11-16 23:45:42 · 14529 阅读 · 7 评论 -
全局空间自相关算法:Join Count
ArcGIS里面,全局空间自相关只提供了一个Moran's I方法,当然要说一招鲜吃遍天也是可以的,不过关于全局自相关还是有不少其他的方法的,这次给大家介绍一种更加简单并且容易理解的全局空间自相关方法:Join Count方法。原创 2015-11-17 23:37:22 · 29558 阅读 · 6 评论 -
白话空间统计二十:相似性搜索(二)
首先打个广告,在这个开心的开心,伤心的伤心的节日里面,请大家关爱一下虾神这样的单身狗,没有买卖,就没有杀害……当然,其他时候,能关爱的也尽量关爱一下……好了,文归正传。相似性搜索,说起来似乎很高大上,实际在狭义上,还是基于数值的查询方式,只不过从yes or on的二元方式,扩展到了范围域的包含性查询而已。如下:一般来说,相似性搜索,有六种模式:原创 2016-02-14 14:43:19 · 3537 阅读 · 0 评论 -
2016年虾神公众号预告
年底事情那是相当的多,各种总结和出差,所以我们的白话空间统计足足停掉一个多月了,为了有一个比较圆满的里程碑,我决定在猴年开始之前,预告一下2016年我在公众号里面将会更新的一些东西,另外大家想看啥,也可以给我发信息,如果我懂的,我可以考虑加到公众号里面去。 在2016年中,预计会在公众号写如下系列的文章: 1、继续写白话空间统计系列,当然除了空间统计,还有一些经典统计包括数理统计、原创 2016-01-14 23:12:58 · 4449 阅读 · 1 评论 -
白话空间统计二十:相似性搜索(三)
昨天简单的写了写相似性搜索的主要方法,这些方法对于学GIS的同学来说,实在是太简单了,所以很多同学反应:虾神泥垢了!科普也要有点深度可好,你是在凑字数么!! 好吧,我觉得上篇文章是有点点问题……我们要向前看,反正已经发出去了,这篇文章就扔那里吧,作为存档用。 今天继续写相似性搜索,昨天说了6种方法,简单是简单,但是大道至简,所有的分析算法,都是从这些简单的内容里面发展来的。不过还缺原创 2016-02-15 18:33:36 · 3930 阅读 · 0 评论 -
空间统计之点数据分析
点是最常见的一种数据表现形式,不管是属性数据还是空间数据,当然,在属性数据上,要做散点图,起码需要两个属性才行。点模式在自然与社会生活中,随处可见,理论上,任何人、物、事件或者描述信息,只要超过两个维度,就可以抽象为一个点,不管是空间上的点,还是属性上的点。当然,在空间上的,点也是有它的一些特性的,比如,单独的点没有大小和方向,只能表示一个位置。最早,点模式的分析起源是在2原创 2016-03-02 23:55:57 · 6790 阅读 · 0 评论 -
空间统计说历史:罗马七丘的空间分析(一)
话说,公元前N年,一个妹纸引发了一场号称“西方封神榜”的战役……强大的希腊联军在史上最强半神阿喀琉斯以及灰机+木马病毒的帮助下,一举攻陷了号称“永不陷落”的特洛伊城:原创 2016-03-29 16:35:21 · 4904 阅读 · 0 评论 -
白话空间统计二十:相似性搜索(四)
今天把相似性搜索写完……很多时候都能够严重的体会为什么网络上那么多小说,要么烂尾,要么太监了,最后这点结局真不好写。今天的文章主要谈ArcGIS的空间统计模块中相似性搜索剩下的两种算法……本文有公式,有数学恐惧症的同学慎入。上一次(相似性搜索三)我们写了属性值相似性搜索法,忘记了的同学回去翻历史记录……中间隔的有点多,需要有耐性,或者直接去翻虾神的博客:http://blog.cs原创 2016-03-17 15:43:11 · 3807 阅读 · 0 评论