自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 spark 提交jar包到集群运行报异常 java.net.UnknownHostException: mycluster

1.报错信息:root@mode1 bin]# ./spark-shell --master spark://mode1:70772019-06-28 15:50:43 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classe...

2019-06-28 16:02:29 2522

转载 Matei Zaharia(Spark系统作者)博士论文-1 引言

由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战:并行编程问题;为了将应用并行化,需要并行编程模型的支撑。容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。结果就是出现了很多编程模型,首先是MapR...

2019-06-23 12:45:41 424

原创 一幅画中的贝叶斯

转:https://blog.csdn.net/u010833547/article/details/75731406

2019-06-12 14:02:33 126

转载 贝叶斯在生活中

在生活中,我们无时无刻不面临着选择:1,一条街上哪个饭馆最靠谱?2,在自习室惊鸿一瞥的女神有没有男朋友?3,老公的公文包里发现一只口红,他有没有出轨?4,新开发的App应该等做得尽善尽美再发布,还是应该尽早发布,用互联网的力量帮助它完善?5,我应该选择哪个工作offer或者还是考公务员才能使自己的收益最大化?那么我们如何才能做出正确得选择和判断呢?单纯凭借经验,往往会出错...

2019-06-12 13:58:08 1065 1

原创 简易电影TOP10分析系统

package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject RDD_Movie_Users_Analyzer6 { def main(args: Array[String]): Unit = { //1.配置SparkConf...

2019-06-09 17:34:25 450

原创 我终于看懂了这一段好爽

val movieAndRating = ratings.map(x=>(x._2,(x._3.toDouble,1))).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)) movieAndRating.take(10).foreach(println)//(2329,(2705.0,640))//获取某电影的总评分和点评人数 ...

2019-06-09 10:22:12 450

原创 Spark 中 map 与 flatMap 的区别

package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * Spark 中 map 与 flatMap 的区别 * 总结: * * - Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; ...

2019-06-08 17:43:06 133

转载 Spark-reduce和reduceByKey

Spark-reduce和reduceByKeyhttps://www.wandouip.com/t5i97590/1.reducereduce(binary_function)reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = ...

2019-06-08 15:09:28 121

原创 获取平均评分最高的10部电影

package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * 平均评分最高的10部电影 */object RDD_Movie_Users_Analyzer2 { def main(args: Array[String]): Uni...

2019-06-08 12:40:36 2309

原创 关于Spark的local[N]

local[N]代表在本地运行,使用N个线程,也就是说可以同时执行N个程序,虽然在本地运行,但是因为cpu大多是多个核心,所以使用多个线程会加速执行,那么local[4]就代表4个线程...

2019-06-08 10:32:34 426

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除