大数据
文章平均质量分 86
虾神说D
攻城狮
展开
-
黑天鹅与大数据预测
黑天鹅与大数据预测 Esri 中国 卢萌 纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作《黑天鹅》,认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行预测,那是完全不靠谱的,正如书名所表示的:在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的信念崩溃了。黑天鹅的存在寓意着不可预测的重大稀有事件原创 2014-08-18 14:16:27 · 3972 阅读 · 6 评论 -
大数据架构思考(二)
大数据架构思考(二)世界上第一架(也是唯一?的)不锈钢制造的战斗机:国内军迷亲切的称呼它为“青翼蝠王”……从分量上来看,比西方那些用各种合金材料打造的妖艳货压秤多了,但是就这么个超级“秤砣”,不但飞起来了,还创造了当年在速度上面的N多项世界纪录。所以,毛熊大哥们告诉我们的语录,我们一直记在心头:进入21世纪的第二个10年,一种名叫“大数据”的技术,突然开始流原创 2017-09-05 17:41:35 · 1175 阅读 · 0 评论 -
大数据架构思考(三)
越十年生聚,而十年教训,二十年之外,吴其为沼乎。——《左传·哀公元年》越人为了报仇,准备了二十年,其中10年用来生育,十年用来教育训练,——怀胎十月,成长十年,教育十年方能成为一个合格的战士。原创 2017-09-07 16:12:50 · 1255 阅读 · 0 评论 -
大数据之:影像提取中深度学习样本库获取的思考
话说,虾神一直是做空间统计和数据分析的,对于深度学习这个热门学科,一直以来也就停留在“了解”阶段,虽然这个平展开来,里面比较核心的技术使用了聚类,而虾神研究生的时候做的课题也正好是空间聚类,所以也算有点沾亲带故把。但是毕竟不是专门做这个的,具体的技术细节也处于一知半解的状态,而今天突然“赶时髦”般的想写这样一篇文章,无论是蹭热点也好,东施效颦也好,因为有些事情已经到了不吐不快的程度。先简介原创 2017-09-27 14:18:58 · 3596 阅读 · 3 评论 -
空间数据挖掘与空间大数据的探索与思考(一)
本文是今年1月份去武汉参加社会计算会议的时候,应约在武汉大学GeoScienceCafe 论坛上面做的主题报告《空间数据挖掘与空间大数据的探索与思考》的讲话录音整理稿,另外虾神配合着PPT又重新编写了部分内容,形成了整个文稿,大约会形成三到五章左右发出来。原创 2018-03-17 18:23:49 · 15951 阅读 · 1 评论 -
空间数据挖掘与空间大数据的探索与思考(三)
地理的分析核心是来源于所谓的空间统计学,空间统计学有四个最基本的概念:空间概率、概率密度、不确定性和统计推断。第一个概念是空间概率,空间概率是一种符合地理学第一定律的联合概率。说道联合概念,先得聊聊经典统计学里面的联合概率。举一个简单的例子,一个女生要找想男朋友,问我有没有啥资源可以介绍 ?我问你需要什么样的男生?她说她的要求很简单,就三个。第一个要求要长得高一点;第二个要求是长得稍微帅一点;第三...原创 2018-03-22 10:07:48 · 7211 阅读 · 1 评论 -
空间数据挖掘与空间大数据的探索与思考(四)
讲完了空间统计学和数据中心,我来讲一讲业界很多政府官员以及我对大数据的认识和理解,因为我现在在ESRI中国主要做大数据,他们对大数据有一些什么样的认知呢?第一种认识,数据量大就是大数据,这是我去交流的时候很多用户提到的,动辄说大数据,就是我们有XX亿条,XXTB数据,所以我们就是大数据。还有说我们要做大数据项目,先要弄够多少多少量的数据,才行。第二种认识是不用传统数据库就是大数据,很多单位认为大数...原创 2018-03-28 11:30:56 · 4239 阅读 · 0 评论 -
空间数据挖掘与空间大数据的探索与思考(五)
如果按照互联网所谓的大数据特点来说,GIS领域大部分的传统数据都不算是实际意义上的大数据。我国从各个方面来说,都是一个大国,所以有各种大国的幸福和苦恼,特别是对于我们做GIS的人来说。比如地理国情普查,比如二调,比如农地确权,960万平方公里,十几亿人,生成的数据量都是极度庞大的,比如农地确权:农地确权是以农户为单位发证,以地块为单位制作数据的,所以全国上来,预计超过15亿个地块(三至四亿农户,户...原创 2018-04-09 11:29:23 · 6619 阅读 · 0 评论 -
空间数据挖掘与空间大数据的探索与思考(七)完结篇
大数据的战略节点接下来我们看一下对于大数据我们能做什么,这个话题企业界比较感兴趣,在学术界可能谈论得比较少。一般来说,大数据战略目前有三个主要的关键节点:系统轻载、应用闭环、数据变现。第一个节点也是最重要的节点就是系统轻载。大家知道从一亿条数据中查询一条数据和从一万条数据中查询一条数据是截然不同的两种速率,庞大的历史数据在线,已经严重影响了系统的效率、稳定性,极大地增加了维护成本和系统开销。特别是...原创 2018-05-07 17:42:56 · 4030 阅读 · 7 评论 -
空间数据挖掘与空间大数据的探索与思考(六)
接下来我们看一下我在实际工作中的遇到的一些与大数据建设有关的案例。客户告诉我,他有一个很简单需求:(虾神每次听见“简单”这两个字,就瑟瑟发抖,曾经有个朋友问我会不会做网站,我说会一点点,然后他马上就说:“我有一个很简单的需求,你帮我做个百度那么简单的网站就行……就是一个输入框一个按钮……然后搜啥出来啥就行。……这么简单的要求,给你500块钱够不够?”我说,你是不是在后面漏掉原创 2018-04-26 12:14:10 · 3938 阅读 · 2 评论 -
白话空间统计二十七:统计学七支柱之空间统计版本(三)信息的数量(2)
前文继续,书接上一回。从大数据的角度来说,数据获取得越多,那么越接近真相——甚至在《大数据时代》一书中,还出现了“全量数据分析”这一概念。理论上是没错,就像询问我们出行的时候,需要多快速度的交通工具一样?回答肯定是“越快越好”,最好是破开空间,瞬间移动……那么这就是最快的么?错了,还有更快的,就是破开时间线,追上了时间……在出发之前,就已经到达了目的地……好吧,这个逻辑过于烧脑,不做解释不做讨...原创 2018-11-04 20:14:51 · 1567 阅读 · 3 评论 -
PySpark算子处理空间数据全解析(1): windows模拟开发环境搭建
Spark是个灰常强大的东西……实际上要说分布式集群神马的,Spark和hadoop一类的分布式计算框架,作为此轮大数据浪潮的尖刀,各种摧城拔寨,所向披靡,但是你真的对Spark的强大有所了解么?我们先来看看Spark能干嘛,万能的广告平台某度的主页面:翻了N页之后,发现所谓的实战,99%是针对电商领域的应用,不管是什么日志分析、行为分析什么,就咋们做画地图的同学来说,这些个所...原创 2019-01-27 18:30:22 · 923 阅读 · 0 评论 -
PySpark算子处理空间数据全解析(2): 啥是算子(1):RDD
说到蒜子嘛,不就是:额,不对啊,那蒜子就应该是:那么我只能表示:那么,到底什么是算子呢?算子实际上Spark里面的一种专业术语,实际上就是一种函数,但是与传统函数不一样的是,它进行的状态的转换。比如:将小鸡变成KFC全家桶,之间就有好多个步骤,那么每个步骤实际上就是一个算子。要说算子,首先就要先说说Spark里面的一个核心概念:RDDRDD的全称叫做...原创 2019-01-28 17:39:02 · 1537 阅读 · 3 评论 -
大数据项目架构思考(一)
大数据概念到今天,炒作的最高风口已经过去了,根据Gartent发布的HypeCycle曲线,大数据已经处于炒作顶点之后的衰退期。HypeCycle曲线而从HypeCycle曲线定义的阶段来看,越过炒作顶点的技术,通常被认为已经满足了技术可行性,进入了可实用的阶段。所以,对于大数据项目来说,技术上已经没有什么太大的问题了,无论从软件还是从人员来说,该填的空也都填得差不原创 2017-08-16 20:54:46 · 3151 阅读 · 0 评论 -
SparkR初探
这样看来,大部分R的分析,都能够直接跑在spark集群上了,再联想到去年Esri发布了ArcGIS对R语言的支持,可以预料到不远的未来,所有的集群运算都将被融为一体。原创 2016-05-21 21:41:00 · 2314 阅读 · 0 评论 -
从hadoop MapReduce 1.0到yarn (1)
其实这个是一个很out的话题了,要知道yarn在2013年就推出了,到现在为止,已经成为了hadoop调度的主流。但是还有不少习惯于使用hadoop 1.x的同学,对这个东西没任何感觉。原因可能和虾神以前一样,除了懒得换,还有可能是1.x的结构实在是太简单明了,配置文件少到不写也可以运行通过。我在5月28日的开发者大会专门通过hadoop 1.x和2.x里面的yarn的演示,其实这些调度机原创 2016-06-02 16:12:17 · 2045 阅读 · 1 评论 -
空间轨迹分析与应用(前言)Computing with Spatial Trajectories
前言空间轨迹是一个移动的物体在地理空间中产生的痕迹,这些痕迹通常是一系列按照时间顺便排列的点,例如P1 -> P2 -> P3 …->Pn,其中每一个点都由地理信息空间的坐标集和时间戳所构成如:asp = (X,Y,T)。因为位置定位和无线通信技术的进步,使得移动计算系统和基于位置的服务(LBS)快速的流行,从而导致表示各种移动对象的信息的产生,如种类繁多的人、车辆、动物和各种自然现象的在翻译 2014-09-21 12:10:34 · 11225 阅读 · 1 评论 -
大数据与小数据
开始文章之前,先声明一下,文章的内容有的是大虾自己的理解,也有是网络上的内容,但是尽量不会去做大段的复制,如果实在有雷同得太厉害的,纯粹巧合。另外文章中的观点仅代表我个人想法,不对正确与否负责,希望有自我辨识能力的朋友有选择性的阅读。 本文的部分思想观点出自 Jules Berman 博士的著作《PRINCIPLES OF BIG DATA》。 ———————————— 我是万恶原创 2014-08-14 21:53:00 · 4270 阅读 · 0 评论 -
地理信息与LBS(二)
地理信息与LBS(二) LBS的大爆发LBS如火如荼,各种产生的机制这里就赘述了,下面贴出一张2011年时候,Pyramid Research Center对全球LBS市场的统计与预测图,大家就可以看出这种势头了。原创 2014-09-23 12:04:14 · 2882 阅读 · 0 评论 -
科学研究与大数据概念的滥用
在科学领域,首先要定义的就是你的科学研究目标,目标必须要界定清晰,那么你的数据结构一开始就要设计得符合你的研究目标,这样才能有目的性的开展工作,如果不预先进行详细界定和设计,在研究的过程中就会导致目标的弱化以至于迷失。原创 2014-09-27 14:52:51 · 4736 阅读 · 1 评论 -
Spark :工作组上的集群计算的框架
Spark :工作组上的集群计算的框架Spark: Cluster Computing with Working SetsMatei Zaharia, Mosharaf Chowdhury, Michael J.Franklin, Scott Shenker, Ion StoicaUniversity of California, Berkeley翻译:Esri 卢萌翻译 2014-09-16 21:54:53 · 5532 阅读 · 0 评论 -
大数据何去何从?——大数据企业的进化之路
大数据何去何从?——大数据企业的进化之路 Esri 中国 卢萌 通常,推动大数据发展的起兴都是临时性的,一些企业和机构在运营的过程中被迫存储和通过检索收集到的大量的数据(无论他们想要与否),所以,大数据的获取,一般是通过一下几种不同的机制来实现: 1、一个企业在其正常的经营活动总已经收集到了大量的数据,并且真在寻求根据需要来对数据进行组织,以原创 2015-04-27 13:37:21 · 2198 阅读 · 0 评论 -
大数据的目的:生产小型数据
弱水三千,只取一瓢。如果拥有着一切,那么我只是需要能够解答我关心的问题的答案。大数据资源的目的,就在于生产各种小型的数据集。原创 2015-05-03 16:14:58 · 2676 阅读 · 0 评论 -
你是探索者,还是归客?用大数据说话
——你是来回采矿的农民,还是浪迹天涯的英雄?公元14世纪,伟大的航海家克里斯托弗.哥伦布以及其他欧洲大陆的探险家在美洲登陆时,带来的第一个“礼物”是什么?好吧,你们肯定不知道,而且也不用瞎猜了,他们带来的是谈虎色变的流行病。西班牙人用无形的武器轻而易举的对付了那些无知的原住民们:天花、流感、水痘和麻疹;这些快速蔓延的流行病让侵略者们仅用了很少的努力就征服了美洲大陆。“其中的一个翻译 2015-11-09 21:42:06 · 2328 阅读 · 0 评论 -
2016年虾神公众号预告
年底事情那是相当的多,各种总结和出差,所以我们的白话空间统计足足停掉一个多月了,为了有一个比较圆满的里程碑,我决定在猴年开始之前,预告一下2016年我在公众号里面将会更新的一些东西,另外大家想看啥,也可以给我发信息,如果我懂的,我可以考虑加到公众号里面去。 在2016年中,预计会在公众号写如下系列的文章: 1、继续写白话空间统计系列,当然除了空间统计,还有一些经典统计包括数理统计、原创 2016-01-14 23:12:58 · 4431 阅读 · 1 评论 -
大数据之:戏说标准化之路
“大数据?有趣,……来了一阵白盔白甲的革命党,都拿着集群,云计算,hadoop,spark,bigTable,走过土谷祠,叫道,‘阿Q!同去同去!’于是一同去。”一夜之间,大数据风靡全球,实际上:仿佛大数据来了,数据库范式就不要了标准结构也不要了数据质量也不要了数据规范也不要了大数据嘛,就是要打破一切……但是标准化和数据质量真得不再重要么?今原创 2016-03-04 23:26:56 · 2701 阅读 · 0 评论 -
Spark词频统计测试
数据:中华书局白话版24史,总计大小93M,已经存放到HDFS集群分析语言:python分析框架:Spark 1.6.0第三方包:jieba(结巴分词)可视化工具:D3.JS源代码:from pyspark import SparkConf, SparkContextimport jieba,Wordfilter,datetime,Word原创 2016-05-24 18:51:51 · 5618 阅读 · 3 评论