2015年06月_一流小风一

09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 spark:SparkSQL练习--51

package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.ListBuffer/** * Create

2015-06-26 23:26:53 920

原创 spark:架构+运行机制的一些总结--50

Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，spark是一个计算框架//中间结果：spark保存到内存、Hadoop保存到磁盘，spark将执行模型抽象为通用的有向无环图通用计划（DAG）///////////////////////////////////////////////////////////////////////////////////////

2015-06-25 09:57:48 2352

原创 spark：协同过滤--49

上一周了解了一下协同过滤在spark中的应用，但是找了几本书也没找到具体的算法流程······每天像只没头的苍蝇一样东一头西一头乱飞···每天室友们睡觉之后才能效率高一点/////////////////////////////////////////////////////////////////////////////////////////////////////////////////

2015-06-16 00:15:54 620

原创 spark：spark1.4.0+Tachyon--48

感觉好久没更新博客了···spark1.4.0版本已经出来了···其中sparkR终于出来、spark为应用提供了REST API来获取各种信息（jobs、stages、tasks、storage info），使用这个REST搭建监控可以很容易了解DAGScheduler的运行细节。···在新版本中shuffle的map阶段输出会被序列化（spill发送到磁盘上的文件小了、GC效率提高了）···P

2015-06-15 23:33:18 486

原创 spark：聚类分析KMeans--47

监督学习从给定的训练数据集中学习出一个函数（模型），当新的数据到来时，可以根据这个函数（模型）预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注（标量) 的。常见的监督学习算法包括回归分析和统计分类。– 二元分类是ML 要解决的基本问题，将测试数据分成两个类。如垃圾邮件的判别、房贷是否允许等等问题的判断。– 多元分类是二元分类的逻辑延伸。例如，在

2015-06-08 15:30:50 951

原创 spark：SparkSQL应用--46

由于spark1.3.x版本后不支持hive，所以我对某本很火的spark书上的两个例子进行改写使用sparksql：package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg

2015-06-03 11:32:14 458

空空如也

初学spark······语句问题

2015-04-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人