Spark基本操作SparkSession,Dataset<Row>,JavaRDD<Row>

最新推荐文章于 2024-08-21 18:18:50 发布

Dark_Zhou

最新推荐文章于 2024-08-21 18:18:50 发布

阅读量1w

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/Dark_Zhou/article/details/78490635

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

  一、Spark创建 

  1.创建SparkSession 

/**

 
 * local[*]表示使用本机的所有处理器创建工作节点 

 
 * spark.driver.memory spark的驱动器内存 

 
 * Spark2.2好像是需要最小2G 

*/

 
 SparkSession session = SparkSession. 
 builder 
 () .appName( 
 "sparkAnalysis" 
 ).master( 
 "local[*]" 
 ).config( 
 "spark.driver.memory" 
 , 
 "2147480000" 
 ).getOrCreate() 
 ; 

  2.创建可以连接hive的SparkSession(由于一般使用SparkSubmit进行提交任务，在sparkSubmit时候设置master，故可以不用配置master) 

 
 SparkSession 
  sparkSession =  
 SparkSession 

 
 . 
 builder 
 () 

 
 .appName( 
 "hive" 
 ) 

 
 .config( 
 "spark.driver.memory" 
 , 
 "2147480000" 
 ) 

 
 .enableHiveSupport() 

 
 .getOrCreate() 
 ; 

  3.SparkSubmit 的 shell脚本 

  /data/spark/spark-2.2.0-bin-hadoop2.7/bin/spark-submit --master spark://elcndc2sc39t:7077 --class com.enc.analysis.core.AlgorithmExecute /data/upload/analysis/analysisFrame-1.1.0.jar $1 $2 

  --master表示master路径，--class表示入口的类的全路径 /data/upload/analysis/analysisFrame-1.1.0.jar 表示计算框架jar包的全路径 $!,$2..是自定义的shell命令进行传参，传递的参数会在入口类的main方法的String[] args中 

  二、利用Spark读取jdbc 

 
 Properties 
  connectionProperties =  
 new  
 Properties 
 () 
 ; 

 
 String url =  
 "jdbc:mysql://"  
 +  
 "mysql服务器地址"  
 +  
 ":"  
 +  
 "mysql端口"  
 +  
 "/"  
 +  
 "数据库名?useUnicode=true&characterEncoding=utf-8" 
 ; 

 
 String driver =  
 "com.mysql.jdbc.Driver" 
 ; 

 
 connectionProperties.setProperty( 
 "user" 
 ,  
 "用户名" 
 ) 
 ; 
 // 设置用户名 

 
 connectionProperties.setProperty( 
 "password" 
 ,  
 "密码" 
 ) 
 ; 
 // 设置密码 

 
 connectionProperties.setProperty( 
 "driver" 
 ,  
 driver) 
 ; 

 
 connectionProperties.setProperty( 
 "url" 
 , 
 url) 
 ; 

 
 SparkSession spark = SparkSessionUtils. 
 getLocalSession 
 () 
 ; 

 
 Dataset<Row> dataset = spark.read().jdbc(connectionProperties.getProperty( 
 "url" 
 ) 
 , 
 "表名" 
 , 
 connectionProperties).persist() 
 ; 

 
 dataset.show() 
 ; 

  三、Spark 的 map操作 

/**

 
 * 将Dataset 
 <Row> 
 转化为List 
 <Map> 
 形式 

*/

 
 Dataset<Row> dataset = spark.read().jdbc(connectionProperties.getProperty( 
 "url" 
 ) 
 , 
 "cq_jqxx" 
 , 
 connectionProperties).persist() 
 ; 

 
 Dataset<Map> mapDataset = dataset.map( 
 new  
 MapFunction<Row 
 ,  
 Map>() { 

 
  
 @Override 

 
  
 public  
 Map  
 call 
 (Row row)  
 throws  
 Exception { 

 
 HashMap hashMap =  
 new  
 HashMap() 
 ; 

 
  
 //这是一个遍历操作，row即表示为当前行数据，get（i）表示当前行的第几列 

 
  
 hashMap.put(row.get( 
 0 
 ) 
 , 
 row.get( 
 1 
 )) 
 ; 

 
 return  
 hashMap 
 ; 

}

 
  
 //转换为基本类型时用Encoders>STRING()等对应的基本类型 

 
 // 当使用Encoders.javaSerialization（）时当前类需要实现序列化 

 
 } 
 , 
 Encoders. 
 javaSerialization 
 (Map. 
 class 
 )) 
 ; 

 
 List<Map> maps = mapDataset.collectAsList() 
 ; 

  四、Dataset<Row>相关类型的互相转换 

  1.java中List转为数组结构（由于经常使用到） 

 
 List 
 <String> list =  
 new  
 ArrayList<>() 
 ; 

 
 String[] strings = list.toArray( 
 new  
 String[list.size()]) 
 ; 

  2.Dataset<Row>转为JavaRDD 

 
 JavaRDD 
 <Row> rowJavaRDD = dataset.javaRDD() 
 ; 

  3.JavaRDD<ROW>转为Dataset<ROW> 

 
 Dataset 
 <Row> dataFrame = sparkSession.createDataFrame(rowJavaRDD 
 ,  
 Row. 
 class 
 ) 
 ; 

  4.利用内部类实现Row转为自己需要的Row，例如将某行进行分词变为String[] 

 
 Dataset 
 <Row> select = dataset.select( 
 "label" 
 ,  
 "message" 
 ) 
 ; 

 
 JavaRDD<WordParticiple> map = select.javaRDD().map(WordParticiple:: 
 parseWordParticiple 
 ) 
 ; 

 
 Dataset 
 <Row> wordParticiple = spark.createDataFrame(map 
 , 
 WordParticiple. 
 class 
 ) 
 ; 

  内部类对象 

 
 public static class  
 WordParticiple{ 

 
  
 private  
 String  
 label 
 ; 

 
 private  
 String[]  
 message 
 ; 

 
 public  
 WordParticiple 
 (String label 
 ,  
 String[] message) { 

 
  
 this 
 . 
 label  
 = label 
 ; 

 
 this 
 . 
 message  
 = message 
 ; 

}

 
  
 public  
 WordParticiple 
 () { 

}

 
  
 public  
 String  
 getLabel 
 () { 

 
  
 return  
 label 
 ; 

}

 
  
 public void  
 setLabel 
 (String label) { 

 
  
 this 
 . 
 label  
 = label 
 ; 

}

 
  
 public  
 String[]  
 getMessage 
 () { 

 
  
 return  
 message 
 ; 

}

 
  
 public void  
 setMessage 
 (String[] message) { 

 
  
 this 
 . 
 message  
 = message 
 ; 

}

 
  
 public static  
 WordParticiple  
 parseWordParticiple 
 (Row row)  
 throws  
 IOException { 

 
 String string = row.getString( 
 1 
 ) 
 ; 

 
  
 String[] split = TermTokenizer. 
 split 
 (string) 
 ; 

 
 return new  
 WordParticiple(row.get( 
 0 
 ).toString() 
 , 
 split) 
 ; 

}

}

Dark_Zhou

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录