易逝的年华
码龄7年
关注
提问 私信
  • 博客:16,739
    16,739
    总访问量
  • 15
    原创
  • 1,201,422
    排名
  • 2
    粉丝
  • 0
    铁粉

个人简介:当你的才华还撑不起你的野心时,就应该静下心来学习;当你的能力还驾驭不了你的目标时,就应该沉下心来历练。梦想不是浮躁,而是沉淀和积累。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-04-10
博客简介:

TangYuG的博客

查看详细资料
个人成就
  • 获得4次点赞
  • 内容获得17次评论
  • 获得25次收藏
  • 代码片获得169次分享
创作历程
  • 12篇
    2023年
  • 2篇
    2022年
  • 1篇
    2021年
成就勋章
TA的专栏
  • saprksql
    1篇
  • hive
    1篇
  • flinksql
    2篇
  • kafka
    2篇
  • CDH
    1篇
兴趣领域 设置
  • 大数据
    大数据
  • 人工智能
    深度学习
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

spark on hive问题记录--持续更新

解决方法:规避解决。修改ORC的默认分割策略为:hive.exec.orc.split.strategy=BI进行解决。原因:是由于HaddopRDD生成过程中partitions是会拿参数mapreduce.job.maps或mapred.map.tasks(20)和spark默认分区数(2)做最大值比较,所以导致默认为20。解决方法:通过在启动 Spark-sql 的时候加上 --driver-java-options “-Xss10m” 选项解决这个问题。解决方法:修改该参数就可以将task降下来。
原创
发布博客 2023.11.16 ·
236 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Doris介绍

Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!
原创
发布博客 2023.09.08 ·
271 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Presto学习之路 -- 01.整体介绍

Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。完整安装包括一个Coordinator和多个Worker。由客户端提交查询,从Presto命令行CLI提交到Coordinator。Coordinator进行解析,分析并执行查询计划,然后分发处理队列到Worker。Presto是完全基于内存的分布式大数据查询引擎,所有查询和计算都在内存中执行。Presto的输入是SQL语句;输出是具体的SQL执行结果。Presto可以对接不同的数据源,例如MySQL、Hive等。
原创
发布博客 2023.09.08 ·
170 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Druid 系统深入详解

Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。
原创
发布博客 2023.09.08 ·
475 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Hbase简介

HBase基于HDFS来存储数据,但是他存储的数据都是经过自己优化索引后的数据,所以他对数据的存储是非常高效的,比HDFS直接存储文件的性能要高很多,可以作为整个大数据的存储基石。由于HBase对于数据的索引和存储都是在列簇级别进行区分的,所以,通常在使用时,建议一个列簇下的所有列都有大致相同的数据结构和数据大小,这样可以提高HBase管理数据的效率。当一个数据有多个版本时,HBase会保证只有最后一个版本的cell数据是可以查询的,而至于其他的版本,会由HBase提供版本回收机制,在某个时间进行删除。
原创
发布博客 2023.09.08 ·
149 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flume: 数据采集机制

无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及 时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集日志的数据采集引擎。
原创
发布博客 2023.09.08 ·
1764 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Sqoop原理

Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库。
原创
发布博客 2023.09.08 ·
277 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

kafka生产者事务踩坑记录

公司需要迁移一个老 spark 项目,之前是消费阿里 LogStore 中的实时数据,处理之后将结果落库。使用的是 spark streaming,batch 时间为 2 分钟。迁移后,需要将 LogStore 切换为 kafka,涉及到了对代码的改动。公司的 kafka 上游生产者发送数据,由于细节的设计需要,生产者开启了事务,以确保数据准且一次的写入 kafka。
原创
发布博客 2023.07.30 ·
328 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Kafka零拷贝机制

Kafka之所以那么快,其中一个很大的原因就是零拷贝(Zero-copy)技术,零拷贝不是kafka的专利,而是操作系统的升级,又比如Netty,也用到了零拷贝。
原创
发布博客 2023.07.29 ·
381 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka架构及基本原理简析

Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,最早是由Linkedin公司开发,最终开源到Apache软件基金会的项目。Kafka是一个分布式的,支持分区的,多副本的和多订阅者的高吞吐量的消息系统,被广泛应用在应用解耦、异步处理、限流削峰和消息驱动等场景。本文将针对Kafka的架构和相关组件进行简单的介绍。在介绍Kafka的架构之前,我们先了解一下Kafk的核心概念。
原创
发布博客 2023.07.29 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH集群离线部署-6.3.1

CDH集群离线部署-6.3.1
原创
发布博客 2023.07.29 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based

成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based
原创
发布博客 2023.05.17 ·
7491 阅读 ·
3 点赞 ·
4 评论 ·
4 收藏

使用flink的sql-client.sh,测试mysql-->kafka-->kafka-->mysql实时流

使用flink的sql-client测试数据流程mysql-->kafka-->kafka-->mysql
原创
发布博客 2022.12.10 ·
2729 阅读 ·
0 点赞 ·
3 评论 ·
6 收藏

fmysql-finkcdc-doris

flinksql 从mysql导入kafka,最后写入doris
原创
发布博客 2022.12.08 ·
509 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

hive中rollup、cube使用方法

当我们业务中需要根据多个维度或者多个粒度统计分析数据的时候,最笨的办法是多次group by 然后union all到一起,这个时候其实可以用rollup、cube来实现,当然要了解这两个函数的原理,如果觉得结果比我们想要的结果多一些,那可以通过grouping sets 灵活的设置分组字段。......
原创
发布博客 2021.10.09 ·
1448 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏
加载更多