Spark知识汇合篇
文章平均质量分 81
贾红平
本人喜欢技术,一致从事于大数据搜索推荐系统架构及其相关工作,最近几年开始熟悉人工智能和机器学习领域,擅长高可用高并发系统架构设计..技术的追求从没有停止过..
展开
-
spark scala-自定义hive函数
本文章主要通过spark实现自定义hive相关函数 1 实现一个自定义hive统计字符串数量的UDAF收需要自定义一个类继承UserDefinedAggregateFunctionimport org.apache.spark.sql.expressions.UserDefinedAggregateFunctionimport org.apache.spark.sql.types.StructT...原创 2018-04-17 09:35:28 · 1388 阅读 · 0 评论 -
spark 开窗函数
通过spark实现类似于数据库的开窗函数import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveContext;/** * r...原创 2018-04-17 09:02:35 · 1330 阅读 · 0 评论 -
spark rdd转化为dataframe
本文章通过反射的方式,把rdd转化为dataframeimport java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spa...原创 2018-04-15 21:31:55 · 539 阅读 · 0 评论 -
spark 读取各类数据源
本文章主要通过代码实现spark读取各类数据源1 spark读取hive数据import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;impo...原创 2018-04-15 18:56:10 · 5287 阅读 · 0 评论 -
spark 聚合和广播
本文主要通过代码实现spark的聚合和广播两个特殊的算子1 广播变量或者少量的数据,可以起到优化功能import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark....原创 2018-04-15 15:34:58 · 309 阅读 · 0 评论 -
spark scala-读取各类数据源
本文章主要通过scala实现spark读取各类数据源1 读取hive数据/** * @author jhp * 使用spark读取Hive数据 */object HiveDataSource { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setA...原创 2018-04-17 09:57:20 · 1673 阅读 · 0 评论 -
spark scala-distinct使用
本文主要通过使用spark的distinct进行去重,实现简单的UV统计import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.Rowimport org.apache.spar...原创 2018-04-17 09:57:13 · 5560 阅读 · 0 评论 -
spark scala-实现udf函数
本文章主要通过spark实现udf自定义函数import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.St...原创 2018-04-17 09:57:05 · 7792 阅读 · 0 评论