自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 收藏
  • 关注

原创 idea打不开

idea打不开

2023-03-09 12:12:11 222

原创 解决:NoClassdefFoundError:com.lmax.disruptor.EventHandler

报错解决

2023-02-15 18:14:14 834

原创 hive sql自动生成自增id;随机id

自增id

2023-02-13 15:15:11 584

原创 spark中出现org.apache.htrace找不到的错误

spark中出现org.apache.htrace找不到的错误

2023-02-08 15:53:43 174

原创 单任务spark程序,并行执行

spark单任务,并行执行多作业

2022-12-30 10:34:01 209

原创 通过jdbc连接hive报java.sql.SQLException: Method not supported问题

jdbc连接hive

2022-12-29 12:37:55 653

原创 java动态加载jar文件

动态加载jar

2022-12-28 10:39:29 559

原创 spark-core优化之提交任务到yarn,动态分配资源

动态资源分配。

2022-12-13 22:12:45 218 1

原创 idea提交Job至YARN集群

idea提交任务到yarn

2022-12-12 14:05:54 333

原创 mysql5.7已存在的表增加自增字段

mysql5.7已存在的表增加自增字段

2022-11-30 10:00:12 444

原创 Spring和hive依赖冲突问题

spring和hive依赖冲突

2022-11-28 23:26:48 673

原创 Hive、Impala、Hue集成LDAP

Hive、Impala、Hue集成LDAP

2022-11-28 18:42:39 1304

原创 impala学习

自己学习impala的记录

2022-11-28 17:10:19 334

原创 Maven打包同一个jar有不同的:版本+时间戳

识别maven的jar最新版本

2022-11-16 15:22:58 574

原创 一道SQL面试题

记录自己遇见过的SQL题

2022-11-16 10:54:31 181

原创 解决:ERROR: Cannot set priority of datanode process 10603

datanode 启动解决

2022-10-29 17:22:29 4127

原创 从Mysql查询数据工具类

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:通用型工具类,从mysql数据库中查询数据,查完后把查询到的数据封装成对象。加油,好好学习,天天向上~I:jdbc...

2021-08-25 22:51:24 369

原创 Hive之UDTF函数

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:在离线数仓过程中,有时会遇见hive自带函数不能解决的场景。此时就需要我们来自定义函数。遇见过的场景:将获取...

2021-08-24 20:26:14 1960

原创 Java的建造者模式(builder)

我们在工作中写代码会遇到一种情况,要给对象属性赋值,通常方式有两种:方式1. Animal animal=new Animal("3岁",20kg,"牛奶"...

2021-08-21 16:24:45 581

原创 flink-cdc 基础教程 完结 附报错解决(二)

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:保证能够使用flink-cdc的大部分场景完整教程内容:介绍使用flink-cdc的前置知识,MySQL的binlo...

2021-07-23 18:06:46 4136

原创 flink-cdc 基础教程 附报错解决 2万字 (一)

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:保证能够使用flink-cdc的大部分场景完整教程内容:介绍使用flink-cdc的前置知识,MySQL的binlo...

2021-07-22 13:49:42 4643 1

原创 Python基础(二)完结

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:1. 类与面向对象的经典代码示例。2. 异常与文件写入。在开发系统中,面向对象编程,使得代码更简洁、逻辑更清晰;读取...

2021-07-21 21:55:09 169

原创 和同学数据产品经理的一次交流

分析求职,思考己身。直接上重点,他记录的一个数据产品经理求职者遇见的问题。同学的收入不低,而且他直言,好的产品经理要比开发工资更高,当然,内卷程度似乎也大一些。个人感觉,和准备的数据分析相...

2021-07-10 23:25:12 142

原创 python2下是使用的MySQLdb,python3下用的是pymysql

在项目中遇见了问题,特意记录下。python3-scrapy1.5.0-使用到import MySQLdb 没多想就去通过pycharm下载安装MySQLdb,安装一直失败,后来突然想起来,python2下是使用的MySQLdb,python3下用的是pymysql但是,之前的服务器上,确实是python3也运行通过了的,后来又去查相关资料,发现原来这里只需要安装一个叫:mysqlclient的包就可以了,这个包在python3下是可以安装成功的因此:只要运行pip install mysqlcli

2021-07-09 17:14:00 202

原创 Python 命令行编程

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:最近在开发etl工具,其中使用到了Python命令行编程,记录一下。IMDG:加油,好好学习,天天向上~Q:IMD...

2021-07-08 23:52:02 1089

原创 实时计算 java基础:类的结构之五:内部类

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:IMDG:加油,好好学习,天天向上~Q:1 内部类概念什么是内部类就是在一个类中定义一个类。生活举例:我们用的笔记...

2021-07-07 22:18:18 93

原创 大数据必备基础:Json框架之FastJson

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:什么是jsonFastJson介绍FastJson序列化APIFastJson反序列化API加油,好好学习,天天向上...

2021-07-06 23:01:46 532

原创 Xshell中连接后标签不见了,怎么再度找回来

xshell5一个窗口连接多个终端,如下图,红色笔圈的地方不见了使用ctrl+shift+t恢复希望大家可以关注下公众号,会定期分享自己从业经历、技术积累及踩坑经验,支持一下,鞠躬感谢~​关注公众号回复:“资料全集”​​...

2021-06-04 10:19:21 2341 1

原创 爱奇艺广告业务中利用Flink的实现

摘要:今天主要分享的内容是 Flink 在爱奇艺广告业务的实践。内容包括:业务场景业务实践问题解决未来规划1. 业务场景大屏展示:包括曝光、点击、收入等核心需求,还有故障率等监控指标异常探...

2021-05-28 08:30:00 163

原创 hive sql系列(四)——所有用户中在今年10月份第一次购买商品的金额

需求:请用sql写出所有用户中在今年10月份第一次购买商品的金额,表order字段:(购买用户:userid,金额:money,购买时间:paymenttime(格式:2017-10-...

2021-05-28 08:30:00 855

原创 hive sql系列(三)——求所有用户和活跃用户的总数及平均年龄

需求:求所有用户和活跃用户的总数及平均年龄建表语句create table user_age( dt string, user_id string, age int...

2021-05-27 21:12:12 428

原创 从百万年薪大佬那里获得的数据仓库面试标准

今天分享又来了呀。ღ( ´・ᴗ・` ) 一起学习进步ღゝ◡╹)ノ♡摘要:我们需要了解数据仓库开发这里的面试标准。知晓目标,才有前进的方向。要点:基础能力数仓建模数据治理原理理解工程能力业务...

2021-05-27 21:12:12 831

原创 hive sql系列(一)——找出所有科目成绩都大于某一学科平均成绩的学生

需求:找出所有科目成绩都大于某一学科平均成绩的学生建表语句create table score( uid string, subject_id string, sc...

2021-05-25 08:00:00 1238

原创 美团-数据仓库高级工程师面试

1.自我介绍,解释自身情况2.离线数仓使用了多久,解决过那些需求,实时数仓搭建花费多少时间3.离线数仓遇见过的问题,如何解决的,技术上遇见过哪些的挑战4.离线解决的最大的问题是什么?5.如...

2021-05-24 08:00:00 780

原创 分享下来自业界大佬分享的实时数仓案例

“看看滴滴打车实时数仓的演变,开阔眼界。”01 滴滴打车实时数仓V1.0 版本标题内容1首先是要对比、解决滴滴使用的实时数仓架构:滴滴实时数仓的架构0.1版本:优点:可以发现单个业务需求...

2021-05-23 09:00:00 349 1

转载 流计算与消息(一):通过Flink理解流计算的原理

“在生产中,消息队列和流计算往往是相互配合,一起来使用的。而流计算也是后端程序员技术栈中非常重要的一项技术。”01哪些问题适合用流计算解决?哪些问题适合用流计算来解决?或者说,流计算它...

2021-05-22 08:00:00 675

转载 知名大厂大数据平台搭建案例分享

“今天我们来看一下淘宝、美团和滴滴的大数据平台”01淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型。淘宝的大...

2021-05-20 23:34:51 810

原创 大数据面试题分享

“最近公司来了几个新同事,好奇问了下面试问题,记录下。”011)技术部分(1)Kafka原理,数据怎么平分到消费者(2)FlumeHDFS Sink小文件处理(3)Flink与SparkStreaming的差异,具体效果(4)Spark背压机制具体原理实现(5)Spark执行内存如何分配,执行任务时给多大内存(6)SparkSQL做了哪些功能(7)讲一下Flink(8)状态编程有哪些应用(9)端到端exactly-once如何保证(10)Fli...

2021-05-19 20:02:50 196

原创 Spark 与 Flink 的演进与区别(下)

01批处理与流处理批处理所谓的批处理,从字面意思理解,就是把一整块数据切分成一小块一小块,每一个小块称为一批。把一个小块数据分配给一个计算节点进行运算,这种情况称为批处理。所以说,批处理针对的数据是一个有限集合,也就是有界数据,这些数据在处理之前就已经存储在我们的源数据地址,当我们要进行处理的时候直接从这个数据集进行读取就可以了。流处理与批处理相对的,流处理的数据是无界的,数据就像一条河里的水源源不断地从上游流到计算框架中,我们不知道数据的总量是多少,也...

2021-05-18 22:26:48 422

原创 Spark 与 Flink 的演进与区别(上)

“ Hadoop 中的计算框架 MapReduce 的基本思想。我们已经知道,MapReduce 的主要功能就是并行计算,但是它也不是十全十美的,MapReduce 高成本的硬伤使得它已经不能很好地解决新时代的问题。”01什么是 Spark打开 Spark 的官网,我们看到的第一句话就是对 Spark 的定义:Spark 是用于大规模数据处理的通用分析引擎。当然,原文是英文的,这句是我翻译过来的。这句话非常简洁明了地讲解了 Spark 的功能,一个是针对大规模数据,一个是通用分析引擎。让我们简单回顾

2021-05-16 23:36:06 178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除