自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

花满楼

黄河远上白云间,一片孤城万仞山。羌笛何须怨杨柳,春风不度玉门关。

  • 博客(6)
  • 问答 (1)
  • 收藏
  • 关注

原创 spark:SparkSQL练习--51

package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.ListBuffer/** * Create

2015-06-26 23:26:53 920

原创 spark:架构+运行机制的一些总结--50

Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,spark是一个计算框架//中间结果:spark保存到内存、Hadoop保存到磁盘,spark将执行模型抽象为通用的有向无环图通用计划(DAG)///////////////////////////////////////////////////////////////////////////////////////

2015-06-25 09:57:48 2351

原创 spark:协同过滤--49

上一周了解了一下协同过滤在spark中的应用,但是找了几本书也没找到具体的算法流程······每天像只没头的苍蝇一样东一头西一头乱飞···每天室友们睡觉之后才能效率高一点/////////////////////////////////////////////////////////////////////////////////////////////////////////////////

2015-06-16 00:15:54 620

原创 spark:spark1.4.0+Tachyon--48

感觉好久没更新博客了···spark1.4.0版本已经出来了···其中sparkR终于出来、spark为应用提供了REST API来获取各种信息(jobs、stages、tasks、storage info),使用这个REST搭建监控可以很容易了解DAGScheduler的运行细节。···在新版本中shuffle的map阶段输出会被序列化(spill发送到磁盘上的文件小了、GC效率提高了)···P

2015-06-15 23:33:18 486

原创 spark:聚类分析KMeans--47

监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注(标量) 的。常见的监督学习算法包括回归分析和统计分类。– 二元分类是ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允许等等问题的判断。– 多元分类是二元分类的逻辑延伸。例如,在

2015-06-08 15:30:50 951

原创 spark:SparkSQL应用--46

由于spark1.3.x版本后不支持hive,所以我对某本很火的spark书上的两个例子进行改写使用sparksql:package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg

2015-06-03 11:32:14 458

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除