- 博客(6)
- 资源 (4)
- 收藏
- 关注
转载 DT大数据梦工厂大数据第一天课程
第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验); 第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理); 第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容; 讲解了scala基础语法知识、集合类,以及具体的实战案例 课
2016-01-03 18:31:17 390
转载 从大数据菜鸟走上大师的历程
Scala,一门为大数据而生的编程语言。对于进化缓慢的Java跟C++语言来说,目前Scala无疑更适应现代化特质的语言,语法简洁,同时兼备函数式编程与面向对象编程,具有令人耳目一新的编程范式。而运行在Java虚拟机上的编译环境使得其具有很多的现有工具与类库,拥有快速的可靠的解释器和编译器。 大数据,这是一个言必谈及大数据的时代,到处是大数据论坛,连很多企业都要准备搞大数据,在不学习大数
2015-12-19 20:33:23 461
原创 spark mllib java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv解决办法
Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes. for debian/ubuntu use: sudo apt-get install jblas libgfortran3
2015-01-28 22:34:45 716
转载 KMeans on Spark
转载自: http://blog.csdn.net/li385805776/article/details/20041179 思路: 1.随机生成数据 2.随机生成K个聚类中心 3.计算每个点所属的类别 4.计算新的聚类中心 5.比较聚类中心的变化情况,大于阈值跳转至3;小于阈值停止。 package myclass import java.u
2015-01-28 15:59:47 544
原创 Manage ZooKeeper in IntelliJ IDEA
Manage ZooKeeper in IntelliJ IDEA. After install ZooKeeper plugin, please open "Preferences" to set connection information in "ZooKeeper" item, then you will find a "ZooKeeper" tool windown, click "
2015-01-24 21:50:54 2041
转载 Hbase -- 表的设计
1. 表的设计1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡
2015-01-24 21:38:46 321
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人