sghuu
码龄6年
关注
提问 私信
  • 博客:102,864
    102,864
    总访问量
  • 96
    原创
  • 2,132,739
    排名
  • 25
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-04-03
博客简介:

sghuu的博客

查看详细资料
个人成就
  • 获得33次点赞
  • 内容获得11次评论
  • 获得195次收藏
创作历程
  • 2篇
    2022年
  • 3篇
    2021年
  • 3篇
    2020年
  • 91篇
    2019年
成就勋章
TA的专栏
  • spark
    13篇
  • Flume
    1篇
  • Flink
    13篇
  • kafka
    9篇
  • 大数据面试题
    1篇
  • yarn
    1篇
  • hbase
    5篇
  • 睿智错误积累
    2篇
  • zookeeper
    2篇
  • linux
    2篇
  • hive
    5篇
  • shell
    1篇
  • jvm原理
    1篇
  • redis
    1篇
  • 设计模式
    2篇
  • 网络编程
    3篇
  • 简单算法
    2篇
  • 大数据集群
    11篇
  • java基础
    11篇
  • HDFS
    12篇
  • java基础关键字
    4篇
  • 数据结构
    3篇
  • MapReduce
    6篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark读取本地文件写法

spark入门
原创
发布博客 2022.11.15 ·
1218 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【无标题】

Error log :2022-01-26 11:04:14,689 ERROR counter.SparkCounters: counter[HIVE, RECORDS_OUT_OPERATOR_RS_34] has not initialized before.2022-01-26 11:04:26,091 ERROR spark.SparkMapRecordHandler: Error processing row: org.apache.hadoop.hive.ql.metadata.HiveE
原创
发布博客 2022.01.26 ·
2532 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于Flume Sink Hdfs,产生的文件无法Cat或者Copy等的问题

关于Flume Sink Hdfs时,产生的文件无法Cat或者Copy等的问题异常:将落地到hdfs的文件迁移到腾讯云Cos存储时采取hadoop distcp 的方式迁移报错Error: java.io.IOException: File copy failed: hdfs://mycluster/user/hive/warehouse/ods/up_event/dt=2021-06-03/event-node2901.16d22649601925.lzo.tmp --> cosn://bd
转载
发布博客 2021.07.14 ·
419 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

基于FlinkCDC 和upsert-kafka的flinkSQL的纬度表关联

基于FlinkCDC 和upsert-kafka的flinkSQL的纬度表关联一、数据存入kafka作为纬度表关联要想存入kafka的数据能在多个程序中作为纬度表关联使用,则必须要保存全量的的纬度数据在kafka中,这就要求kafka的日志清理策略不能为delete,因为这种策略会删除历史数据且无法证每个join的key保留到最新的数据,所以需要采用compact的清理策略,相同key的数据至少会保留一条最新的数据,这个清理策略的触发由相关参数控制。创建topic的测试实例 相关参数可进行调整./k
原创
发布博客 2021.05.14 ·
1358 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

FlinkCDC从mysql -kafka-es同步数据时遇到的问题

2021-01-12 01:12:15,551 INFO org.apache.kafka.clients.consumer.internals.SubscriptionState [] - [Consumer clientId=consumer-10, groupId=null] Resetting offset for partition mysql2es_t_bank_question-1 to offset 0.2021-01-12 01:12:15,924 ERROR org.apache.f
原创
发布博客 2021.01.12 ·
2149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于kafka无法远程连接的问题

在远程搭建了一个单机kafka,该单机上能够常见消费者和生产者,都能正常运行,但是在远程的其他机器上一只无法消费,在远程创建消费者连接是一直报错解决方法 :修改服务器Kafka配置文件server.properties, 在#listeners=PLAINTEXT://:9092下添加如下一行:advertised.listeners=PLAINTEXT://x.x.x.x:9092 (x.x.x.x为服务器对外的IP)...
原创
发布博客 2020.11.18 ·
3862 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

mysql导数据到hive后换行符冲突的解决

在采用常用的数据迁移工具时,常会采用sqoop和dataX工具,在数据迁移时难免会遇到一些特殊字符的处理,比如hive里的换行符
无法更改,而原数据源难免的会存在一些数据格式会存储
,如mysql里的mediumtext格式就会存储有
,这是后数据存储进hive后就不可比遍的与hive的换行符冲突,造成数据的切分错乱。解决方案:方案一:把换行符替换成空字符串,sqoop中有替换的参数,但是datax中没有。如下 将下将换行符换成 ‘
’,在sqoop的配置李添加下列参数–hive-deli
原创
发布博客 2020.09.03 ·
1775 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

SparkSql 读mysql数据写入到Es

话不多说直接上代码1.Scala版本 (将mysql的两个表join然后将结果插入到ES中) <dependencies> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.27<
原创
发布博客 2020.07.30 ·
799 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

spark的任务划分和任务调度详解

以spark-cluster模式为例spark的任务提交流程介绍:https://blog.csdn.net/sghuu/article/details/103710145提交一个Spark应用程序,首先通过Client向ResourceManager请求启动一个Application,同时检查是否有足够的资源满足Application的需求,如果资源条件满足,则准备ApplicationMa...
原创
发布博客 2019.12.26 ·
2637 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

spark的数据倾斜的6种解决方案

1 解决方案一:聚合原数据避免shuffle过程·绝大多数情况下,Spark作业的数据来源都是Hive表,这些Hive表基本都是经过ETL之后的昨天的数据。为了避免数据倾斜,我们可以考虑避免shuffle过程,如果避免了shuffle过程,那么从根本上就消除了发生数据倾斜问题的可能。如果Spark作业的数据来源于Hive表,那么可以先在Hive表中对数据进行聚合,例如按照key进行分组,...
原创
发布博客 2019.12.26 ·
886 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink的端到端的一致性保证以及二阶段提交

Flink的端到端的一致性保证状态一致性:有状态的流处理,内部每个算子都可以有自己的状态对于处理器内部而言,所谓的状态一致性,其实就是我们所说的计算的结果要保证准确一条数据都不应该丢失,也不应该重复计算同一个数据在遇到故障时可以恢复,恢复之后重新计算,计算的结果也应该正确不受影响故障恢复时的三种一致性要求:AT-MOST-ONCE(最多一次)当任务故障时,最简单的做法是什么都不干,...
原创
发布博客 2019.12.25 ·
2453 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

kafka-flink-kafka端到端状态一致性的保证

内部 —— 利用 checkpoint 机制,把状态存盘,发生故障的时候可以恢复,保证内部的状态一致性source —— kafka consumer 作为 source,可以将偏移量保存下来,如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新消费数据,保证一致性flink在消费kafka的数据时,在恢复状态时并不会使用kafka自己维护的offset,假设:使用kafka自己维护...
原创
发布博客 2019.12.25 ·
1561 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏

Flink对迟到数据的处理的三种方式

**Flink对迟到数据的处理**水位线可以用来平衡计算的完整性和延迟两方面。除非我们选择一种非常保守的水位线策略(最大延时设置的非常大,以至于包含了所有的元素,但结果是非常大的延迟),否则我们总需要处理迟到的元素。迟到的元素是指当这个元素来到时,这个元素所对应的窗口已经计算完毕了(也就是说水位线已经没过窗口结束时间了)。这说明迟到这个特性只针对事件时间。DataStream API提供...
原创
发布博客 2019.12.25 ·
6485 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

Flink的触发器Trigger介绍和使用

触发器定义了window何时会被求值以及何时发送求值结果。触发器可以到了特定的时间触发也可以碰到特定的事件触发。例如:观察到事件数量符合一定条件或者观察到了特定的事件。默认的触发器将会在两种情况下触发处理时间:机器时间到达处理时间事件时间:水位线超过了窗口的结束时间触发器可以访问流的时间属性以及定时器,还可以对state状态编程。所以触发器和process function一样强大。例如我...
原创
发布博客 2019.12.25 ·
8056 阅读 ·
4 点赞 ·
3 评论 ·
17 收藏

Flink的时间和窗口的使用、水位线的设置

Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入Flink的时间。Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。window分为两大类:Co...
原创
发布博客 2019.12.25 ·
3120 阅读 ·
1 点赞 ·
1 评论 ·
6 收藏

Flink的状态介绍和有状态的计算

**Flink的状态介绍**Flink的状态指的是1.维护的状态变量,键控状态值状态(Value state)为每个键存储一个任意类型的单个值。复杂数据结构也可以存储为值状态。列表状态(List state)为每个键存储一个值的列表。列表里的每个数据可以是任意类型。映射状态(Map state)为每个键存储一个键值映射(map)。map的key和value可以是任意类型。2....
原创
发布博客 2019.12.25 ·
3308 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

flink的一致性检查点三种算法

**flink的一致性检查点算法**Flink的恢复机制的核心就是应用状态的一致性检查点,有状态流的一致性检查点,其实就是所以状态在某个时间点的一份快照拷贝,而这个时间点应该是所有任务都恰好处理完同一个输入数据。一般常见的检查点算法:方法一:常用的某个时间点的快照1)暂停所有输入流的摄取有,也就是不接受性的数据输入2)等待所有摘出来的数据计算完毕,这就意味者结束时,所有任务都已经处理...
原创
发布博客 2019.12.25 ·
1246 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink的架构

**Flink的架构**组件Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为Flink是用Java和Scala实现的,所以所有组件都会运行在Java虚拟机(JVMs)上。每个组件的职责如下:作业...
原创
发布博客 2019.12.23 ·
203 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink的任务失败以及结果的保证介绍

在执行之前,流程序将会被翻译成物理层数据流图,物理层数据流图由连接的并行任务组成,而一个并行任务运行一些运算符逻辑,消费输入流数据,并为其他任务产生输出流数据。真实场景下,可能有数百个这样的任务并行运行在很多的物理机器上。在长时间的运行中,流任务中的任意一个任务在任意时间点都有可能失败。我们如何保证任务的失败能被正确的处理,以使任务能继续的运行下去呢?事实上,我们可能希望我们的流处理器不仅能在任务...
原创
发布博客 2019.12.23 ·
1174 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Flink的简介

Flink的简介Apache Flink是第三代分布式流处理器,它拥有极富竞争力的功能。它提供准确的大规模流处理,具有高吞吐量和低延迟。特别的是,以下功能使Flink脱颖而出:事件时间(event-time)和处理时间(processing-tme)语义。即使对于无序事件流,事件时间(event-time)语义仍然能提供一致且准确的结果。而处理时间(processing-time)语义可用于具...
原创
发布博客 2019.12.23 ·
192 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多