Spark基本操作SparkSession,Dataset<Row>,JavaRDD<Row>

一、Spark创建
1.创建SparkSession
/**
* local[*]表示使用本机的所有处理器创建工作节点
* spark.driver.memory spark的驱动器内存
* Spark2.2好像是需要最小2G
*/
SparkSession session = SparkSession. builder () .appName( "sparkAnalysis" ).master( "local[*]" ).config( "spark.driver.memory" , "2147480000" ).getOrCreate() ;
2.创建可以连接hive的SparkSession(由于一般使用SparkSubmit进行提交任务,在sparkSubmit时候设置master,故可以不用配置master)
SparkSession sparkSession = SparkSession
. builder ()
.appName( "hive" )
.config( "spark.driver.memory" , "2147480000" )
.enableHiveSupport()
.getOrCreate() ;
3.SparkSubmit 的 shell脚本
/data/spark/spark-2.2.0-bin-hadoop2.7/bin/spark-submit --master spark://elcndc2sc39t:7077 --class com.enc.analysis.core.AlgorithmExecute /data/upload/analysis/analysisFrame-1.1.0.jar $1 $2
--master表示master路径,--class表示入口的类的全路径 /data/upload/analysis/analysisFrame-1.1.0.jar 表示计算框架jar包的全路径 $!,$2..是自定义的shell命令进行传参,传递的参数会在入口类的main方法的String[] args中

二、利用Spark读取jdbc
Properties connectionProperties = new Properties () ;
String url = "jdbc:mysql://" + "mysql服务器地址" + ":" + "mysql端口" + "/" + "数据库名?useUnicode=true&characterEncoding=utf-8" ;
String driver = "com.mysql.jdbc.Driver" ;
connectionProperties.setProperty( "user" , "用户名" ) ; // 设置用户名
connectionProperties.setProperty( "password" , "密码" ) ; // 设置密码
connectionProperties.setProperty( "driver" , driver) ;
connectionProperties.setProperty( "url" , url) ;
SparkSession spark = SparkSessionUtils. getLocalSession () ;
Dataset<Row> dataset = spark.read().jdbc(connectionProperties.getProperty( "url" ) , "表名" , connectionProperties).persist() ;
dataset.show() ;

三、Spark 的 map操作
/**
* 将Dataset <Row> 转化为List <Map> 形式
*/
Dataset<Row> dataset = spark.read().jdbc(connectionProperties.getProperty( "url" ) , "cq_jqxx" , connectionProperties).persist() ;
Dataset<Map> mapDataset = dataset.map( new MapFunction<Row , Map>() {
@Override
public Map call (Row row) throws Exception {
HashMap hashMap = new HashMap() ;
//这是一个遍历操作,row即表示为当前行数据,get(i)表示当前行的第几列
hashMap.put(row.get( 0 ) , row.get( 1 )) ;
return hashMap ;
}
//转换为基本类型时用Encoders>STRING()等对应的基本类型
// 当使用Encoders.javaSerialization()时当前类需要实现序列化
} , Encoders. javaSerialization (Map. class )) ;
List<Map> maps = mapDataset.collectAsList() ;

四、Dataset<Row>相关类型的互相转换
1.java中List转为数组结构(由于经常使用到)
List <String> list = new ArrayList<>() ;
String[] strings = list.toArray( new String[list.size()]) ;
2.Dataset<Row>转为JavaRDD
JavaRDD <Row> rowJavaRDD = dataset.javaRDD() ;
3.JavaRDD<ROW>转为Dataset<ROW>
Dataset <Row> dataFrame = sparkSession.createDataFrame(rowJavaRDD , Row. class ) ;
4.利用内部类实现Row转为自己需要的Row,例如将某行进行分词变为String[]
Dataset <Row> select = dataset.select( "label" , "message" ) ;
JavaRDD<WordParticiple> map = select.javaRDD().map(WordParticiple:: parseWordParticiple ) ;
Dataset <Row> wordParticiple = spark.createDataFrame(map , WordParticiple. class ) ;
内部类对象
public static class WordParticiple{
private String label ;
private String[] message ;
public WordParticiple (String label , String[] message) {
this . label = label ;
this . message = message ;
}
public WordParticiple () {
}
public String getLabel () {
return label ;
}
public void setLabel (String label) {
this . label = label ;
}
public String[] getMessage () {
return message ;
}
public void setMessage (String[] message) {
this . message = message ;
}
public static WordParticiple parseWordParticiple (Row row) throws IOException {
String string = row.getString( 1 ) ;
String[] split = TermTokenizer. split (string) ;
return new WordParticiple(row.get( 0 ).toString() , split) ;
}
}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值