- 博客(5)
- 收藏
- 关注
原创 蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验
所遇问题:由于在IDEA下可以方便快捷地运行scala程序,所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯,但是其只能在local下执行,在网上搜了好多帖子都不能启动spark集群,由于实验任务紧急只能暂时作罢IDEA下任务提交,改由终端下使用spark-submit提交打包好的jar任务。
2015-04-14 16:27:53 7299
转载 数据挖掘学习笔记--系统聚类法和K均值聚类法
一.系统聚类法 1.基本思想将模式样本按距离准则逐步分类,类别由多到少,直到获得合适的分类要求为止。算法:第一步:设初始模式样本共有N个,每个样本自成一类,即建立N类,。计算各类之间的距离(初始时即为各样本间的距离),得到一个N*N维的距离矩阵D(0)。这里,标号(0)表示聚类开始运算前的状态。第二步:假设前一步聚类运算中已求得距离矩阵D(n),n为
2015-04-09 20:20:00 9557
转载 机器学习中的相似性度量标准
在做聚类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯
2015-04-08 17:03:33 689
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人