大数据老哥
码龄6年
关注
提问 私信
  • 博客:1,431,166
    社区:18
    1,431,184
    总访问量
  • 160
    原创
  • 1,723,382
    排名
  • 4,427
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 目前就职: 大数据
  • 加入CSDN时间: 2018-11-24
博客简介:

大数据记录

博客描述:
微信搜索公众号【大数据老哥】GitHub [https://github.com/lhh2002] 记录从0到1走向架构师之路
查看详细资料
个人成就
  • 获得3,327次点赞
  • 内容获得2,960次评论
  • 获得2,671次收藏
  • 代码片获得1,057次分享
创作历程
  • 39篇
    2021年
  • 94篇
    2020年
  • 38篇
    2019年
成就勋章
TA的专栏
  • Sqoop
    1篇
  • Kudu
    1篇
  • 大数据项目
    6篇
  • 实时数仓
    1篇
  • 离线数仓
    1篇
  • Canal
    3篇
  • Hive
    8篇
  • 面试
    13篇
  • Flink
    19篇
  • ETL
    2篇
  • 软件
    1篇
  • Kubernetes
    4篇
  • Docker
    5篇
  • Datax
    1篇
  • Flume
  • MySQL
    2篇
  • Scala
    10篇
  • hadoop
    24篇
  • MapReduce
    4篇
  • HDFS
    6篇
  • Kafka
    8篇
  • 爬虫
    6篇
  • requests
    4篇
  • NoSql
    10篇
  • Redis
    7篇
  • Mongodb
    3篇
  • Python
    5篇
  • Lombok
    1篇
  • Spark
    19篇
  • 笔记
    2篇
  • bug
    2篇
  • HBASE
    12篇
  • hue
    5篇
  • impala
    3篇
  • zookeeper
    3篇
  • Linux
    14篇
  • Shell
    6篇
  • 分区
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

知乎实时数仓架构演进

         “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面实时数仓 1.0 版本,主题: ETL 逻辑实时化,技术方案:Spark Streaming。实时数仓 2.0 版本,主题:数据分层,指标计算
原创
发布博客 2021.11.11 ·
1398 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ClickHouse深度解析,收藏这一篇就够了~

一、什么是ClickHouse?         ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。二、适用场景志数据行为分析标签画像的分析数据
原创
发布博客 2021.11.10 ·
9343 阅读 ·
0 点赞 ·
0 评论 ·
22 收藏

Flink企业级优化

前言         最近花了一个星期的时间给大家整理了一份Flink优化从多方面下手。末尾有彩蛋。如果对大家有帮助动动发财的小手来个三连,感谢大家~1、资源配置调优         Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的
原创
发布博客 2021.11.03 ·
2481 阅读 ·
15 点赞 ·
10 评论 ·
19 收藏

Flink 基本工作原理

         Flink是新的stream计算引擎,用java实现。既可以处理stream data也可以处理batch data,可以同时兼顾Spark以及Spark streaming的功能,与Spark不同的是,Flink本质上只有stream的概念,batch被认为是special stream。Flink在运行中主要有三个组件组成,JobClient,JobManager 和 TaskManager。主要工作原理如
翻译
发布博客 2021.10.14 ·
1901 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据框架发展史

         这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。       .
原创
发布博客 2021.10.14 ·
1808 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

程序员面试 10 大潜规则,千万不要踩坑!

作者:姿势帝https://www.cnblogs.com/newAndHui/p/12451882.html潜规则1:面试的本质不是考试,而是告诉面试官你会做什么很多刚入行的小伙伴特别容易犯的一个错误,不清楚面试官到底想问什么,其实整个面试中面试官并没有想难道你的意思,只是想通过提问的方式来知道你会什么比如:面试官提问在实际项目中你们是怎么样使用缓存的?初入行回答:使用redis,key-value存放但是面试官可能是想知道:一般在业务中缓存什么样的数据,为什么要缓存这些数据,缓存数据如何保证实时性,如果
转载
发布博客 2021.10.11 ·
1540 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

大数据环境下的数仓是如何管理元数据的

前言         元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。1、什么是数据仓库的元数据管理?1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。‘’抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数
原创
发布博客 2021.09.24 ·
1734 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive从入门到精通,HQL硬核整理四万字,全面总结,附详细解析,赶紧收藏吧!!

一、了解Hive1、Hive的概念及架构         Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 的开发者开发自定义的 mapper
转载
发布博客 2021.09.13 ·
2583 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

三大组件HDFS、MapReduce、Yarn框架结构的深入解析式地详细学习【建议收藏!】

我们知道目前Hadoop主要包括有三大组件,分别是:分布存储框架(HDFS)、分布式计算框架(MapReduce)、以及负责计算资源调度管理的平台(Yarn),那么今天我们就来解析式的深入学习了解这三大组件。*
转载
发布博客 2021.09.09 ·
2504 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

Kafka与Pulsar的区别在哪?为什么会成为下一代的消息中间件之王?

前言         在本系列的Pulsar和Kafka比较文章中,我将引导您完成我认为重要的几个领域,并且对于人们选择强大,高可用性,高性能的流式消息传递平台至关重要。消息传递模型(Messaging model)是用户在选择流式消息传递系统时应首先考虑的事情。消息传递模型应涵盖以下3个方面:Message consumption(消息消费):如何发送和消费消息Message Acknowledgement(消息确认)
转载
发布博客 2021.09.09 ·
1761 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

企业级数据迁移(sqoop建议收藏)

数据导出/迁移的概念         在做数据导出之前,我们看一下已经完成的操作:数据分析阶段将指标统计完成,也将统计完成的指标放到Hive数据表中,并且指标数据存储到HDFS分布式文件存储系统。         指标统计完成之后,我们最终是想将我们的指标数据做成可视化大屏进行展示,Hive中的数据无法、很难直接连接到JavaWeb或者EE技术
转载
发布博客 2021.09.06 ·
1496 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

干货分享 | Hive调优小技巧

         Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。         影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。架构优化
转载
发布博客 2021.08.16 ·
1898 阅读 ·
20 点赞 ·
15 评论 ·
8 收藏

学kudu这一篇就够了

前言         最近在招聘要求下突然看到了Apache kudu 于是花了几天时间研究了下,下面简单的给大家介绍下 记得收藏。一、Kudu 介绍1.1、背景介绍         在KUDU之前,大数据主要以两种方式存储;【1】:静态数据        
原创
发布博客 2021.07.06 ·
3121 阅读 ·
0 点赞 ·
143 评论 ·
12 收藏

HBase最新面试题总结

         最近看了好多粉丝的面试题,于是总结出关于HBase相关的面试题,今天分享给大家,认真观看,记得收藏一、讲一下 Hbase 架构Hbase主要包含HMaster/HRegionServer/ZookeeperHRegionServer 负责实际数据的读写. 当访问数据时, 客户端直接与RegionServer通信.HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个
原创
发布博客 2021.04.18 ·
4057 阅读 ·
2 点赞 ·
1 评论 ·
74 收藏

听说你们写毕业设计没有动态数据?Python教你一步完成!

前言         最近又到了写毕业论文的季节了,有好多粉丝朋友私信我说老哥能不能帮我爬点数据让我来写论文,这时正好有位小女生正在打算买只小喵咪,于是老哥在全网搜索于是发现了下面的网站只好动动自己的小手,来完成这个艰巨的任务了,有喜欢爬虫的同学,或有需要爬取数据的同学可以私聊老哥。页面分析         我们通过访问一下地址 :htt
原创
发布博客 2021.04.18 ·
1791 阅读 ·
19 点赞 ·
20 评论 ·
0 收藏

Flink中的异步IO

前言         Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求         Flink在做流数据计算时,很多时候需要与外部系统进行交互(比如数据库、Redis、Hive、HBase等等存储系统)。 往往需要注意系统间
原创
发布博客 2021.04.06 ·
3993 阅读 ·
24 点赞 ·
21 评论 ·
20 收藏

史上最全Spark高级RDD函数操作

前言         本篇文章主要介绍高级RDD操作,重点介绍键值RDD,这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题,如自定义分区,这是你可能最想要使用RDD的原因。使用自定义分区函数,你可以精确控制数据在集群上的分布,并相应的操作单个分区。创建数据集 val myCollection = "WeChat official account big data brother" .split("
原创
发布博客 2021.03.18 ·
2312 阅读 ·
21 点赞 ·
19 评论 ·
3 收藏

Hive常用DDL操作

一、Database1.1 查看数据列表show databases;1.2 使用数据库USE database_name;1.3 新建数据库语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的 [COMMENT database_comment] --数据库注释 [LOCATION hdfs_path] --存储在 HDFS 上的位置 [WITH DBPROPER
原创
发布博客 2021.03.07 ·
1450 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark调优秘诀

前言         每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了?1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个
转载
发布博客 2021.03.02 ·
1465 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

大厂都在使用的Hive优化

Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此,感谢作业的辛勤付出。《Hadoop 数据仓库实践》一书值得品读。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化等。此处记录下来,仅为学习和加强记忆。...
转载
发布博客 2021.03.01 ·
1521 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多