没有合适的昵称
码龄7年
关注
提问 私信
  • 博客:304,252
    问答:372
    304,624
    总访问量
  • 121
    原创
  • 1,672,913
    排名
  • 148
    粉丝

个人简介:个人工作学习笔记

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2018-06-07
博客简介:

没有合适的昵称

博客描述:
求知若饥,虚心若愚
查看详细资料
个人成就
  • 获得59次点赞
  • 内容获得44次评论
  • 获得228次收藏
  • 代码片获得117次分享
创作历程
  • 7篇
    2021年
  • 43篇
    2020年
  • 73篇
    2019年
成就勋章
TA的专栏
  • 数据结构和算法类
  • flink
    6篇
  • kudu
    1篇
  • ClickHouse
    9篇
  • 笔记
    4篇
  • hive
    17篇
  • impala
    2篇
  • 其他
    4篇
  • sqoop
    6篇
  • 数仓
    2篇
  • CDH
    6篇
  • scala
    1篇
  • hue
    1篇
  • azkban
    1篇
  • storm
    1篇
  • spark
    23篇
  • hadoop
    9篇
  • kafka
    5篇
  • Zookeeper
    2篇
  • MySQL
    2篇
  • flume
    2篇
  • Java
    3篇
  • liunx
    4篇
  • 疑难杂症
    5篇
  • 爱好
    1篇
  • 555
  • hbase
    5篇
  • solr
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论一次flink checkpoint失败的排查过程

Container id: container_e910_1637406318221_42547_01_000003Exit code: 1Shell output: main : command provided 1main : run as user ismain : requested yarn user isGetting exit code file…Creating script paths…Writing pid file…Writing to tmp file 10_1637
原创
发布博客 2021.12.24 ·
3159 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

spark kudu Kerberos 认证不通过

Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, node12.test-tpl-hadoop-wh.com, executor 76): org.apache.kudu.client.NonRecoverableException: Couldn’t find a valid master in (node
原创
发布博客 2021.12.22 ·
1754 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何监听flinksql查询mysql的频率

1.在mysql的目录下, 找到my.ini文件, 然后在其中加入:[mysqld]log = "D:/Mysql5.5.61/mysql_log.sql"2.重启mysql服务3.这时候在mysql中执行任意语句, 均能在D:/Mysql5.5.61/mysql_log.sql中查看到flink sql mysql source lookup.cache.ttl据测试, 本单位是ms, 并非s以下实验均在本地中, 断点 JdbcRowDataLookupFunctionFOR SYS
原创
发布博客 2021.12.14 ·
2039 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink 常见问题汇总

代码如下:import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.DataTypes;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;import org.apach
原创
发布博客 2021.10.05 ·
4882 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH5.14安装文档(包含spark2和kafka的安装)

发布资源 2021.03.30 ·
doc

clickhouse重复导数问题

背景因为使用alter table … drop (del)等情况都是在异步执行的,所以我们在导数的时候一定会考虑重复导数,补数等情况分区表1.先把导数的分区下掉alter table [table] detach partition ‘xxx’;2.把数据导入表中2.1 alter table [table] move partition ‘xxx’ to table [table]2.2 直接写两种方式任选一种3.删除下掉的数据alter table [xxx] drop deta
原创
发布博客 2021.03.18 ·
770 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

clickhouse页面查询-tabix搭建

Embedded这种方式使用的clickhouse内置的服务,直接打开config.xml中http_server_default_response标签的注释就行<http_server_default_response><![CDATA[<html ng-app="SMI2"><head><base href="http://ui.tabix.io/"></head><body><div ui-view="" clas
原创
发布博客 2021.03.18 ·
758 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

clickhouse实战--常见异常汇总

Code: 117, e.displayText() = DB::Exception: Unexpected NULL value of not Nullable type String (version 20.8.3.18)从上面报错信息来看,是因为null值导致的,hive底层存储null值是用\N表示,而clickhouse处理null值的方式不一致,因为需要在建表时特殊说明,问题解决思路:https://blog.csdn.net/jarry_cm/article/details/10598801
原创
发布博客 2021.01.25 ·
12536 阅读 ·
1 点赞 ·
3 评论 ·
11 收藏

hive 列转行or行转列

多列转多行给定一个表temp,字段是 user_id,clo1,col2…col12 12各字段代表12个月电费,求最终结果展现:user_id,month,moneywith temp as ( select 1 as user_id,2 as col1,3 as col2,4 as col3,5 as col4)select a.user_id,b.month,b.money from temp a lateral view explode(map('1',col1,'2',col2,
原创
发布博客 2020.12.29 ·
317 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Property ‘name‘ has no setter method in class

用BeanUtils.setProperty设置的类必须是public,否则会报此错误
原创
发布博客 2020.11.24 ·
2245 阅读 ·
3 点赞 ·
1 评论 ·
0 收藏

hive order by/sort by /distribute by /cluster by

官网说明https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortByorder by全局排序,但是只有一个reduce,因此在数据量很大的情况下,效率很低sort by单个reduce内有效,但是全局无序,要想实现和order by 一样的效果,必须要进行一次归并排序(下面讲),控制个数:set mapred.reduce.tasks=xxx 如果是spark则是控制partitionsdistribute by
原创
发布博客 2020.11.22 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive长尾优化

背景在刚使用hive的过程中,碰到过很多问题,任务经常需要运行7,8个小时甚至更久,在此记录一下这个过程中,我的一些收获join长尾背景SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时间比其他Instance执行时间长。其表现为:执行日志中该Join Task的大部分Instance都已执行完成,但少数几个Instance一直处于执行中,这种现象称之为长尾长尾类别&优化方法小表长尾
原创
发布博客 2020.10.28 ·
1127 阅读 ·
2 点赞 ·
2 评论 ·
8 收藏

The auxService:spark_shuffle does not exist

ERROR YarnAllocator: Failed to launch executor 8 on container container_e16_1596454596856_117925_01_000009org.apache.spark.SparkException: Exception while starting container container_e16_1596454596856_117925_01_000009 on host bj-yz-2fm1-d15-148-6-bigd.in
原创
发布博客 2020.09.10 ·
2170 阅读 ·
3 点赞 ·
1 评论 ·
2 收藏

ClickHouse内置函数

日期类函数时间或日期截取函数(to)—— 返回非日期toYear()取日期或时间日期的年份toYear(toDateTime(‘2018-12-11 11:12:13’)) toYear(toDate(‘2018-12-11’))返回 2018 返回 2018toMonth()取日期或时间日期的月份toMonth(toDateTime(‘2018-12-11 11:12:13’)) toMonth(toDate(‘2018-12-11’))返回 12返回 12toDayOfMonth()
原创
发布博客 2020.08.28 ·
2406 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

ClickHouse SQL语法

CREATECREATE DATABASE用于创建指定名称的数据库,语法如下:CREATE DATABASE [IF NOT EXISTS] db_name如果查询中存在IF NOT EXISTS,则当数据库已经存在时,该查询不会返回任何错误。:) create database test;Ok.0 rows in set. Elapsed: 0.018 sec.CREATE TABLE对于创建表,语法如下:CREATE TABLE [IF NOT EXISTS] [db.]ta
原创
发布博客 2020.08.22 ·
1528 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ClickHouse表引擎(ClickHouse核心)

表引擎(即表的类型)决定了:1)数据的存储方式和位置,写到哪里以及从哪里读取数据2)支持哪些查询以及如何支持。3)并发数据访问。4)索引的使用(如果存在)。5)是否可以执行多线程请求。6)数据复制参数。ClickHouse的表引擎有很多,下面只介绍其中几种,对其他引擎有兴趣的可以去查阅官方文档:https://clickhouse.yandex/docs/zh/operations/table_engines/TinyLog最简单的表引擎,用于将数据存储在磁盘上。每列都存储在单独的压缩文件
原创
发布博客 2020.08.22 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ClickHouse数据类型

整型固定长度的整型,包括有符号整型或无符号整型。整型范围(-2n-1~2n-1-1):Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]无符号整型范围(0~2n-1):UInt8 - [0 : 255]UInt16 - [0 : 65535]UInt32 - [0 : 4294967
原创
发布博客 2020.08.22 ·
693 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

ClickHouse安装

安装前的准备CentOS取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容:[root@software]# vim /etc/security/limits.conf在文件末尾添加:* soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072[root@software
原创
发布博客 2020.08.22 ·
537 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ClickHouse简介

什么是ClickHouseClickHouse 是俄罗斯的Yandex(类似于百度等在我们国家的地位)于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告(优势:快))。什么是列式存储以下面的表为例:Id Name Age1 张三 182 李四 223 王五 34采用行式存储时,数据在磁盘上的组织结构为:(相同颜色代表一行)好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想查所有人的年龄时,需
原创
发布博客 2020.08.22 ·
1323 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive建表为parquet实际上为text

发布问题 2020.07.23 ·
1 回答
加载更多