Spark
文章平均质量分 66
Spark基础和实战
浮云6363
这个作者很懒,什么都没留下…
展开
-
【spark】spark sql中grouping sets新增纬度怎么使得分组id不改变
最近在项目中用spark sql做离线开发遇到许多纬度组合去重统计的需求,第一想法就是用grouping sets进行纬度组合,grouping_id()做为分组id实现需求。spark sql的grouping sets和hive的区别主要在于分组id计算方式不一样:spark sql中用grouping_id()获取分组id,而hive通过grouping__id(两个_)获取分组idspark sql分组id是纬度被选中则为0,没被选中则为1,而hive则刚好相反,选中为1,没被选中为0举例原创 2021-03-17 21:44:35 · 1583 阅读 · 2 评论 -
【spark】Spark读取HBase表(newAPIHadoopRDD方式)
hbase依赖于zookeeper和hadoop,spark读取hbase数据需要连接到zookeeper,通过zookeeper访问hbase:第一种是将hbase-site.xml文件加入classpath第二种是在HBaseConfiguration实例中设置如果不设置,默认连接的是localhost:2181会报错:connection refused本文使用的是第二种方式。maven中需要引入依赖<?xml version="1.0" encoding="UTF-8"?>原创 2020-10-11 20:27:35 · 3327 阅读 · 0 评论 -
Scala(Spark)Shell中如何输入多行命令
经常将程序片段直接黏贴到spark-shell里,会遇到多行输入的异常,可按以下方法解决scla-shell里直接输入:paste命令,黏贴后结束按ctrl+D2.scala-shell里通过:load 命令scala-shell里通过:可以在命令中通过花括号或括号实现多行...原创 2019-10-30 16:07:24 · 3637 阅读 · 0 评论 -
pvuv的代码开发及提交spark程序jar包运行读取数据源并将结果写入MySQL中
目录PvUvToMysql类ConnectionUtils类jdbc.properties文件在IDEA中打jar包的两种方式IDEA打jar包IDEA中maven方式打jar包提交spark程序jar包运行参数解释本地模式运行集群上运行yarn上运行PvUvToMysql类package com.erongda.bigdate.sparkimport java.sql.{Connect...原创 2018-09-26 23:41:40 · 420 阅读 · 0 评论