- 博客(7)
- 收藏
- 关注
原创 Spark词频统计测试
数据:中华书局白话版24史,总计大小93M,已经存放到HDFS集群分析语言:python分析框架:Spark 1.6.0第三方包:jieba(结巴分词)可视化工具:D3.JS源代码:from pyspark import SparkConf, SparkContextimport jieba,Wordfilter,datetime,Word
2016-05-24 18:51:51 5635 3
原创 Spark词频统计测试(白话版二十四史)
数据:中华书局白话版二十四史,总计大小93M,已经存放到HDFS集群pythonSpark 1.6.0jieba(结巴分词)D3.JSfrom pyspark impo...
2016-05-24 18:47:38 285
原创 SparkR 初探
好久没有发博客了,一是因为工作本身的事情挺多,第二是因为开发者大会,也正是由于开发者大会,所以虾神我又捡起了好多年不玩的大数据……好吧,好几个月没有玩的大数据了,捡起的方...
2016-05-21 21:58:33 165
原创 SparkR初探
这样看来,大部分R的分析,都能够直接跑在spark集群上了,再联想到去年Esri发布了ArcGIS对R语言的支持,可以预料到不远的未来,所有的集群运算都将被融为一体。
2016-05-21 21:41:00 2328
原创 白话空间统计二十一:密度分析番外,海量数据热力图全解析
开发者大会,解析海量数据制作热力图分析方法与步骤,从代码带工具,从处理到成图,全步骤无死角解析全面解析,解锁所有姿势,5月27日,我在这里等你。Esri空间技术开发者大会...
2016-05-11 19:15:18 1003
原创 数据:人类的足迹
芯片技术的发展再一次打败了摩尔定律……现在每个人手上设备的计算能力,都已经是我们的前辈们想都不敢想的。——能力越大,责任越大,但是能力的大小并不是绝对的。应用这个能力的智慧,才是最重要的。在50多年前,NASA所有计算机的计算能力累加起来,还不如现在你手上的手机……然后那些天才的科学家们,就是用这样一个手机,将人类送上了月球。——这是我个的一小步,却是人类的一大步。阿姆
2016-05-07 23:28:12 2107
原创 白话空间统计二十一:密度分析番外:公交广告投放
公交车是城市流动的风景和广告牌,据不完全统计,截止到2014年,北京市各类运营公交车总数已达22542辆,公交线路1020条,年运送乘客46.3亿人次。在公交车上投放广告,无论是里面乘车的,还是公交车经过路线上的人,都是这个广告的受众,这无疑是非常合算的一个生意。但是,如果你作为一个公司的广告运营专员,需要选择一条公交线路的车辆投放广告,你会如何选择呢?而如果你是公交公司的广告运营商,你怎
2016-05-02 16:18:35 3630
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人