spark
文章平均质量分 61
松果仁
淡泊名利 宁静致远
展开
-
基于spark的快速离线分析框架easy-spark
在spark基础上,做简单二次封装,简化初级程序员快速入手spark分析程序文档地址gitee代码库easy-spark架构架构说明EngineCore自定义封装核心引擎SparkBase开发者继承类: 注入SQLContext,JavaSparkContext,SparkSession,ConfKit,DbFactorySQLContext,JavaSparkContext,SparkSession:spark原生操作类ConfKit:自定义配置文件操作类config.properti原创 2020-11-09 13:37:06 · 539 阅读 · 0 评论 -
spark sql自定义UDF函数-java语言
背景说明基于spark sql开发过程中,需要一些类似与官网提供的 int()、from_json()等自定函数处理数据。下属将简单讲解通过java如何实现spark sql自定义函数官方UDF接口说明官方提供了0-22 UDF接口,UDF0代表无参数输入只有返回参数,UDF1接口表示有一个入参,含义以此类推UDF1官方接口说明package org.apache.spark.sql.api.java;import java.io.Serializable;import org.apach原创 2020-09-15 15:08:20 · 2856 阅读 · 0 评论 -
spark mongodb 写入操作-基于java
方式一通过Dataset.format方式写入mode: overwrite appendDataset<User> userDataset = ....;userDataset.write().format("com.mongodb.spark.sql.DefaultSource") .option("spark.mongodb.output.uri", "mongodb://test:test123@127.0.0.1:27010")原创 2020-08-28 17:38:53 · 552 阅读 · 0 评论 -
spark java Dataset map计算示例
示例代码: Dataset<Row> rowDataSet = SqlContext.sql("select * from user"); Encoder<UserBean> rowEncoder = Encoders.bean(UserBean.class); Dataset<UserBean> rowDataset.map((MapFunction<Row, UserBean>) row->{ row.get(0); ..原创 2020-05-28 10:31:44 · 5414 阅读 · 0 评论 -
spark sql 之 collect_set collect_list 后WrappedArray 取值
示例:demo数据userIdplace1001北京1001上海spark建立的虚拟表 userPlaceView。根据用户ID进行分组,用collect_set(place)获取place信息。spark sql 函数查询 地址Dataset<Row> resultDataSet = SqlContext.sql("select userId, collect_set(place) as place from userPlaceView group b原创 2020-05-26 17:52:11 · 3116 阅读 · 0 评论 -
基于spark进行多源数据关联统计分析
spark引擎进行多数据关联分析业务背景解决方案代码示例业务背景很多统计需求是根据现有存储进行统计分析:1、关系型数据库存储基本关系数据,MySQL、oracle、pg等。2、非关系型数据库存储详细数据,MongoDB、HBase、ES等。解决方案通过spark引擎加载多源数据,进行统计分析。处理流程图代码示例//加载jdbc数据 Dataset<Row> ...原创 2020-02-01 15:22:41 · 1237 阅读 · 0 评论 -
spark sql通过hbase-connectors操作hbase示例
整体思路,通过spark sql加载hbase数据源,借助spark引擎码sql进行查询统计需要的数据。文档参考:hbase官网spark hbase结合文档spark sql示例一. 集成步骤1.1 spark hbase-connectors驱动编译spark操作hbase需要按照自己环境的版本要求进行编译驱动包。具体参看连接地址。驱动包连接地址Apache HBase™ Sp...原创 2019-12-09 10:46:58 · 1698 阅读 · 0 评论 -
spark项目借助maven-shade-plugin插件打包依赖
maven配置maven配置 <profiles> <profile> <id>spark-cluster</id> <dependencyManagement> <dependencies> ...原创 2018-04-08 12:06:58 · 2349 阅读 · 0 评论 -
spark 自定义外部配置参数的三种方式
1、通过脚本 --conf 方式来提交多个配置参会传递多个 --config./bin/spark-submit --class com.xx.TestApp --master yarn --deploy-mode cluster --driver-memory 1g --num-executors 2 --executor-memory 512M --executor-cores 2 ...原创 2019-07-26 16:34:39 · 5744 阅读 · 0 评论