- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 BIRCH算法
概念BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。聚类特征CF聚类特征CF是BIRCH算法最核心的概念,它是多个数据点的结合表示,是一个三元组 (N,LS,SS)(N
2016-10-25 18:15:20 1649 1
翻译 Spark编程指南--官方翻译
说明这是对Spark2.0.1的Spark Programming Guide的翻译,翻译它是想让自己静心看下去,英语水平也不高,所以有的地方难免出错,另外,翻译中的某些地方加入了自己的理解,可能就多添了一句,以便于理解。综述在一个高层次来说,每一个Spark应用程序都会包含driver程序(运行用户main函数的程序)和在集群上执行各种各样的并行操作。Spark提供的主要抽象是RDD(弹性的分布式
2016-10-24 15:10:04 1580 2
原创 Hadoop多用户配置
0.Hadoop多用户配置的背景。 Hadoop多用户配置的目的就是多个hadoop用户可以共同使用HDFS,但是只能操作属于自己的空间,不能跨用户空间操作(当然/tmp是属于大家的,任何用户都会对这个文件夹有写操作)。 Hadoop多用户配置,相当于给每个用户一个hadoop客户端,每个用户都可以使用hadoop的命令操作属于自己的HDFS空间。
2016-10-14 15:05:15 5849
用shell脚本实现hadoop多用户配置
2016-11-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人