- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 spark:SparkSQL练习--51
package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.ListBuffer/** * Create
2015-06-26 23:26:53 920
原创 spark:架构+运行机制的一些总结--50
Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,spark是一个计算框架//中间结果:spark保存到内存、Hadoop保存到磁盘,spark将执行模型抽象为通用的有向无环图通用计划(DAG)///////////////////////////////////////////////////////////////////////////////////////
2015-06-25 09:57:48 2352
原创 spark:协同过滤--49
上一周了解了一下协同过滤在spark中的应用,但是找了几本书也没找到具体的算法流程······每天像只没头的苍蝇一样东一头西一头乱飞···每天室友们睡觉之后才能效率高一点/////////////////////////////////////////////////////////////////////////////////////////////////////////////////
2015-06-16 00:15:54 620
原创 spark:spark1.4.0+Tachyon--48
感觉好久没更新博客了···spark1.4.0版本已经出来了···其中sparkR终于出来、spark为应用提供了REST API来获取各种信息(jobs、stages、tasks、storage info),使用这个REST搭建监控可以很容易了解DAGScheduler的运行细节。···在新版本中shuffle的map阶段输出会被序列化(spill发送到磁盘上的文件小了、GC效率提高了)···P
2015-06-15 23:33:18 486
原创 spark:聚类分析KMeans--47
监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注(标量) 的。常见的监督学习算法包括回归分析和统计分类。– 二元分类是ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允许等等问题的判断。– 多元分类是二元分类的逻辑延伸。例如,在
2015-06-08 15:30:50 951
原创 spark:SparkSQL应用--46
由于spark1.3.x版本后不支持hive,所以我对某本很火的spark书上的两个例子进行改写使用sparksql:package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg
2015-06-03 11:32:14 458
空空如也
初学spark······语句问题
2015-04-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人