spark
strong_yu
这个作者很懒,什么都没留下…
展开
-
spark累加器,广播变量
累加器:分布式只写共享变量,只在内部读数据广播变量:分布式只读变量 def main(args: Array[String]): Unit = { var conf = new SparkConf().setAppName("master").setMaster("local[*]") var sc = new SparkContext(conf) var...原创 2020-07-12 23:01:30 · 163 阅读 · 0 评论 -
Spark Sql 使用
SparkSql简介SparkSql主要用于处理结构化的数据以及Spark执行类sql的查询SparkSql的数据源:SparkSql的数据源可以是JSON字符串,JDBC,HIVE,HDFS等DataFrameDataFrame也是一个分布式的数据容器,与RDD类似,也可以转换成RDD,DataFrame除了保存数据外,还保存数据的结构信息scheme,DataFrame底层封装...原创 2019-11-30 17:35:32 · 340 阅读 · 0 评论 -
Spark RDD的数据分区
数据分区1.只有Key-Value类型的RDD才有数据分区器,非Key-Value类型的RDD分区器为None2.每个RDD的分区ID范围为:0~numPartitions-1 def main(args: Array[String]): Unit = { var conf = new SparkConf().setAppName("master").setMaster("l...原创 2019-11-27 18:28:34 · 430 阅读 · 0 评论 -
Spark RDD中函数的传递
在RDD中传递函数,代码的初始化在Driver端,运行在Executor端,所以传递时要对类进行序列化如下:class Search(query:String) extends Serializable { def isMatch(s:String): Boolean ={ s.contains(query) } def getMatchFunctionRefer...原创 2019-11-26 18:25:44 · 242 阅读 · 0 评论