- 博客(4)
- 收藏
- 关注
原创 初学者入门-用Spark ML来处理超大数据
还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。
2015-12-23 11:42:22 4560
原创 一个诡异的spark-submit运行问题(已解决)
今天在测试刚刚部署好的spark集群的时候,碰到了一个诡异的spark-submit问题。搜了一圈也没发现,结果意外的找到了原因,真是欲哭无泪!问题:写好了一个计算Pi的程序,编译打包成 ComputePi.jar包,放到spark集群的master上,然后用命令spark-submit --master spark://master1:7077 --class com.ibm.j
2015-12-22 21:32:09 11027 6
原创 hadoop集群的搭建脚本及构思(N):一个简化的Hadoop+Spark on Yarn集群快速搭建
为了一篇正在准备的用spark做文本分析的博文,快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制,HA的hadoop的集群搭建还要在等一段时间才能来继续了。由于工作内容变动,有一段时间没有搞环境搭建,这次居然手生了很多,所这里也快速的记录一下自己的步骤来当做文档。-- 机器配置4台虚机,一个master,3个slav
2015-12-22 21:07:54 1535
原创 班门弄斧的写统计-置信区间的自我总结
为了进入数据科学家的行列,大把年纪又重新来看统计的东西。最近在面试和实际工作中发现,经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念,不少人(甚至我面的一个Cornell的统计硕士)都完全理解错误。所以这里自己看了不少东西,总结出来留下爪印。遵循CSDN上牛人的建议,先从Wiki入手,然后去看经典的书和论文,以及一堆搜出来的东西。非统计出身,所以这里就不列一堆数学公式了,
2015-12-14 11:22:10 1966 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人