自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 HIVE向量化执行引擎优化功能的bug解决(Caused by: java.lang.ClassCastException: java.lang.Integer cannot be cast to[B

项目场景:项目任务调度dwd层事件明细表-->dws层流量聚合表脚本开发初期使用时一切正常*脚本测试代码如下:*export HIVE_HOME=/opt/apps/apache-hive-3.1.2-bin/datestr=`date -d'-1 day' +%Y-%m-%d`if [ $1 ]thendatestr=$1fi${HIVE_HOME}/bin/hive -e "INSERT INTO TABLE dws.app_pv_agg_session PAR

2020-08-17 23:44:22 1752 1

原创 大数据开发之数据仓库项目流程小总结(一)

项目整体介绍1 数仓整体说明1.1 技术选型数据采集:FLUME存储平台:HDFS基础设施:HIVE运算引擎:SPARKSQL资源调度:YARN任务调度:AZKABAN元数据管理:ATLAS1.2 分层设计:分层的意义:数据管理更明晰!运算复用度更高!需求开发更快捷!便于解耦底层业务(数据)变化!1.2.1 ODS层ODS层:源数据层,分为流量域ODS层及业务域ODS层流量域ODS层:数据来源于日志服务器(用户行为日志数据(APP端和WEB端)),日志服务器将数据生产到Kafka

2020-08-17 18:13:39 1801 1

原创 Exactly-Once模式将聚合类数据写入到支持事务性的数据库中

SparkStreaming与Kafka整合之聚合类写入同时保证Exactly-Once流程原理:1.数据经过聚合后,数据量已经变得很少,可以将计算好的结果收集到Driver端2.在Driver端获取偏移量,然后将计算好的结果和偏移量,使用支持事物的数据库,在同一个事物中将偏移量和计算好的数据写入到数据库,保证同时成功3.如果失败,让任务重启,接着上一次成功的偏移量继续读取建表实现:代码实现:import java.sql.{Connection, DriverManager, Prep

2020-07-26 12:08:01 264

原创 SparkStreaming和Kafka整合的相关信息

SparkStreaming和Kafka整合这里的整合我们用最新的Spark版本3.0.0另外根据官网说明 我们要使用的scala版本为2.12.x ,hadoop版本2.7+在IDEA中导入SparkStreaming依赖在最新官网我们能查询到和kafka整合的相关资料这里提示的是kafka的版本要在0.10及以上版本IDEA中导入相关依赖...

2020-07-26 11:04:32 143

原创 Scala 之 环境搭建 及 工具IDEA的配置使用

Scala的环境搭建由于scala是基于java来开发的, 编写的java类可以使用javac命令编译成.class文件被JVM加载到内存中执行 ! 那么scala可以通过scalac命令将编写的scala文件编译成.class文件一样被JVM加载到内存中,因此Scala是运行在JVM平台上的,所以安装Scala之前要安装JDK!1.在windowns上安装Scala编译器方式一:访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包,目前最新版本是2.13

2020-06-23 10:59:57 255 1

原创 面试题 之 MAPREDUCE

question:字段如下(年级、班级、科目、姓名、分数),分别对应grade,class,subject,name,score求各年级各班各科目的最高分Top10 用mapreduce来写

2020-06-22 23:15:55 161 1

原创 面试题 之 手写SQL

questiontb1 : user_id, app_name, age,sex,online_time. 数据粒度是user_id + app_name。app_name只有4个值:分别是淘宝、美团、拼多多、京东使用一个sql计算出如下数据:a.现在要按照这样一个规则计算用户年龄、性别:根据app_name的值来确定——淘宝>美团>拼多多>京东,即如果用户在淘宝中的年龄性别不为NULL则取淘宝中的,如果为空则取美团中的,依此类推数据:a,淘宝,null,null,500a

2020-06-21 22:54:52 448 1

原创 HIVE连续案列 之 打地鼠游戏

连续命中次数在3次以上的用户数据:用户名,打击序次,命中u01,1,1u01,2,0u01,3,1u01,4,1u01,5,0u01,6,1u02,1,1u02,2,1u02,3,0u02,4,1u02,5,1u02,6,0u02,7,0u02,8,1u02,9,1u03,1,1u03,2,1u03,3,1u03,4,1u03,5,1u03,6,0建表 , 导入数据:create table tb_game(name string ,times int

2020-06-21 21:30:32 335

原创 HIVE连续案例 之 店铺销售

连续N天销售记录的店铺案列数据:a,2017-02-05,200a,2017-02-06,300a,2017-02-07,200a,2017-02-08,400a,2017-02-10,600b,2017-02-05,200b,2017-02-06,300b,2017-02-08,200b,2017-02-09,400b,2017-02-10,600c,2017-01-31,200c,2017-02-01,300c,2017-02-02,200c,2017-02-03,400

2020-06-21 20:55:01 119

原创 java.sql.SQLException : Access denied for user ‘root’@‘linux01’ (using password: YES)

Underlying cause: java.sql.SQLException : Access denied for user ‘root’@‘linux01’ (using password: YES)出错原因:root的密码设置错了在MySQL中重新设置密码mysql> set password for root@linux01=password(‘root’);修改完密码后 记得在hive中的 hive-site.xml 文件中将密码改成修改后的密码在进去hive的b

2020-06-16 14:20:57 276

原创 Master is initializing的处理方式

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing的处理方式1.先关闭正在运行的hbase2.查看进程 , 删除HDFS中存在的HBase3.删除Zookeeper中存在的Hbase4.重新启动HBase以上操作都是在配置了/etc/profile直接操作...

2020-06-10 19:38:52 3564 5

Flink实战脑图.xmind

flink全站式内容纲要,针对于flink的内容,学习思路,Flink保证ExactlyOnce,Flink的WaterMark,Flink侧流输出 等

2020-08-15

Spark知识体系脑图.xmind

spark的总体最新最全总结,spark的简介及部署,sparkcore的基本概念,RDD编程实践以及高级功能,sparksql,sparkStreaming的简介及整合kafka的方式

2020-07-26

JavaLearning.xmind

对 学习 java过程中 的 基础 面向对象 常用API 集合 IO 多线程 网络编程 反射的 大致总结

2020-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除