2015年12月_infovisthinker

12月 11月 07月 06月 04月 03月

原创初学者入门-用Spark ML来处理超大数据

还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。

2015-12-23 11:42:22 4560

原创一个诡异的spark-submit运行问题（已解决）

今天在测试刚刚部署好的spark集群的时候，碰到了一个诡异的spark-submit问题。搜了一圈也没发现，结果意外的找到了原因，真是欲哭无泪！问题：写好了一个计算Pi的程序，编译打包成 ComputePi.jar包，放到spark集群的master上，然后用命令spark-submit --master spark://master1:7077 --class com.ibm.j

2015-12-22 21:32:09 11027 6

原创 hadoop集群的搭建脚本及构思（N）：一个简化的Hadoop+Spark on Yarn集群快速搭建

为了一篇正在准备的用spark做文本分析的博文，快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制，HA的hadoop的集群搭建还要在等一段时间才能来继续了。由于工作内容变动，有一段时间没有搞环境搭建，这次居然手生了很多，所这里也快速的记录一下自己的步骤来当做文档。-- 机器配置4台虚机，一个master，3个slav

2015-12-22 21:07:54 1535

原创班门弄斧的写统计-置信区间的自我总结

为了进入数据科学家的行列，大把年纪又重新来看统计的东西。最近在面试和实际工作中发现，经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念，不少人（甚至我面的一个Cornell的统计硕士）都完全理解错误。所以这里自己看了不少东西，总结出来留下爪印。遵循CSDN上牛人的建议，先从Wiki入手，然后去看经典的书和论文，以及一堆搜出来的东西。非统计出身，所以这里就不列一堆数学公式了，

2015-12-14 11:22:10 1966 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 初学者入门-用Spark ML来处理超大数据

原创 一个诡异的spark-submit运行问题（已解决）

原创 hadoop集群的搭建脚本及构思（N）：一个简化的Hadoop+Spark on Yarn集群快速搭建

原创 班门弄斧的写统计-置信区间的自我总结

空空如也

空空如也

原创初学者入门-用Spark ML来处理超大数据

原创一个诡异的spark-submit运行问题（已解决）

原创班门弄斧的写统计-置信区间的自我总结