自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据记录

微信搜索公众号【大数据老哥】GitHub [https://github.com/lhh2002] 记录从0到1走向架构师之路

  • 博客(160)
  • 资源 (1)
  • 收藏
  • 关注

原创 元旦要来了,考虑好要去哪里旅游了吗?Python爬取最全攻略!

前言         2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连。 转发请求声明。一、实现思路首先我们爬取的网站是一个穷游网站: https://place.qyer.com/我这里为大家编写了2个方式第一个就是获取中国范围内的旅游景点,和省级的旅游景点。我这还使用了词汇分析给大家进行展示。分析页面我要我们要爬取的页面URL

2020-12-27 21:34:59 1908 20

原创 Python爬取哔哩哔哩(bilibili)视频

         本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流。好了多了就不多说了喜欢的朋有可以收藏,转发请复原文链接谢谢。一、环境准备我这里使用的是环境如下仅供参考:开发工具: pycharmpython环境:python-3.8.0依赖的包: shutil,os,re,json,choice,reques

2020-12-08 15:45:36 5819 74

原创 MySQL的存储过程原来还可以这样玩?(还不收藏)

        什么是存储过程,存储过程能干吗?本篇博客给带大家学习下存储过程,并进行实战操作。(建议收藏)一、什么是存储过程?MySQL5.0版本开始支持的存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上.

2020-08-28 22:14:54 7604 63

原创 HBase最新面试题总结

         最近看了好多粉丝的面试题,于是总结出关于HBase相关的面试题,今天分享给大家,认真观看,记得收藏一、讲一下 Hbase 架构Hbase主要包含HMaster/HRegionServer/ZookeeperHRegionServer 负责实际数据的读写. 当访问数据时, 客户端直接与RegionServer通信.HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个

2021-04-18 20:31:41 12

原创 听说你们写毕业设计没有动态数据?Python教你一步完成!

前言         最近又到了写毕业论文的季节了,有好多粉丝朋友私信我说老哥能不能帮我爬点数据让我来写论文,这时正好有位小女生正在打算买只小喵咪,于是老哥在全网搜索于是发现了下面的网站只好动动自己的小手,来完成这个艰巨的任务了,有喜欢爬虫的同学,或有需要爬取数据的同学可以私聊老哥。页面分析         我们通过访问一下地址 :htt

2021-04-18 11:08:22 215 14

原创 Flink中的异步IO

前言         Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求         Flink在做流数据计算时,很多时候需要与外部系统进行交互(比如数据库、Redis、Hive、HBase等等存储系统)。 往往需要注意系统间

2021-04-06 21:44:31 73 21

原创 史上最全Spark高级RDD函数操作

前言         本篇文章主要介绍高级RDD操作,重点介绍键值RDD,这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题,如自定义分区,这是你可能最想要使用RDD的原因。使用自定义分区函数,你可以精确控制数据在集群上的分布,并相应的操作单个分区。创建数据集 val myCollection = "WeChat official account big data brother" .split("

2021-03-18 23:32:28 93 19

原创 Hive常用DDL操作

一、Database1.1 查看数据列表show databases;1.2 使用数据库USE database_name;1.3 新建数据库语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的 [COMMENT database_comment] --数据库注释 [LOCATION hdfs_path] --存储在 HDFS 上的位置 [WITH DBPROPER

2021-03-07 20:25:12 39

转载 Spark调优秘诀

前言         每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了?1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个

2021-03-02 21:26:36 57

转载 大厂都在使用的Hive优化

Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此,感谢作业的辛勤付出。《Hadoop 数据仓库实践》一书值得品读。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化等。此处记录下来,仅为学习和加强记忆。...

2021-03-01 17:40:32 45

转载 都说Kafka牛看完这篇就够了

前言         系统间的耦合高怎么办,我们如何不让一个服务过于庞大,一个好的方式就是依据具体的功能模块拆分服务,降低服务的耦合度,服务间的交互可以通过消息传递数据来实现,除此之外Kafka非常适合在线日志收集等高吞吐场景,kafka有更好的吞吐量,内置分区,副本和故障转移,这有利于处理大规模的消息,所以kafka被各大公司广泛运用于消息队列的构建:消息队列模型-生产者消费者模型Kafka基本概念和架构模型Kafk

2021-02-27 15:21:24 118

原创 最新Hive的高频面试题新鲜出炉了!

导语最近也是到了准备面试的时候了于是老哥我也自己整理了一些关于Hive的常问的面试题于是跟大家分享下,同时我也会将这些题目同步到GitHub上GitHub还有好多资源如Flink面试题,Spark面试题,程序员必备软件,hive面试题,Hadoop面试题,Docker面试题,简历模板请去下方链接下载 https://github.com/lhh2002/Framework-Of-BigData对你们有帮助记得 star 。希望打算换工作的朋友或找工作的朋友对你们有些帮助,最后预祝大家新的一年升职加薪,好

2021-02-19 22:08:43 185 12

原创 最新Hadoop的面试题总结

1、集群的最主要瓶颈  磁盘IO2、Hadoop运行模式  单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述  1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。  2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。  3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。  4)Hive:基于Hadoop的一个数据仓库工具

2021-02-09 16:55:50 347

原创 企业是如何解决HDFS单点问题的?

前言         在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就来聊一聊。解决HDFS单点问题解决方案         解决HDFS点单问题其实可

2021-01-30 18:12:42 47

原创 你都知道那些Kafka副本机制?

前言         在日常开发过程中使用kafka来实限流削峰作用但是往往kafka会存放多份副本来防止数据丢失,那你知道他的机制是什么样的吗?一、Kafka集群         Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的

2021-01-28 17:41:04 109

原创 HDFS是如何设计架构的?

前言         Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。一、Hadoop1.0 简介         Hadoop1.0版本刚出来的时候是为了解决两个间题:一是海量数据如何存储的问题,一个是海量数据如何

2021-01-27 23:02:27 45

原创 企业是如何选择技术栈来做离线数仓

前言         最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个按案例,仅供参考。案例一、小型公司         首先我们要明白一点小型公司人员并不多其次服务器的配置有不是很高,这时如果要做数仓使用到的大数据组价就不可能了,那我们就使用传统数据库来进行讲解。1

2021-01-24 16:28:52 99

原创 原来Canal也可以做HA!

前言         在做实时数仓时,数据量往往比较大的,如果使用Canal来监听MySQL的状态当Canal 如果是单机就会造成单点问题,这时Canal恰好可以配置HA这样就能解决单点问题,但是依赖于zookeeper。一、Canal HA模式配置1.1 服务器端HA模式配置         canal是支持HA的,其实现机制也是依赖zo

2021-01-23 20:35:30 92 11

原创 万字带你深入阿里开源的Canal工作原理

前言         上篇文章给大家讲解了如何安装一个Canal,以及讲解了一部分的原理,今天我们就来深度聊一聊Canal的工作流程,以及他是怎么工作的,以及架构师怎样的。...

2021-01-20 16:15:04 335 46

原创 实时数仓|架构设计与技术选型

前言一、技术选型二、需求分型三、架构设计总结

2021-01-16 23:22:03 443 54

原创 一文带你快速入门Canal,看这篇就够了!

前言         我们在做实时数仓时数据往往都是保存到数据库中例如MySQL,当有一条数据新增或修改需要马上将数据同步到kafka中或其他的数据库中,这时候我们需要借助阿里开源出来的Canal,来实现我们功能。一、什么是Canal我们看下官网的描述:canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费根据官网的描述我们大约可以理解为Ca

2021-01-12 23:14:11 790 55

原创 Flink 自定义Avro序列化(Source/Sink)到kafka中

前言         最近一直在研究如果提高kafka中读取效率,之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好,偶然之间接触到了Avro序列化,发现kafka也是支持Avro的方式于是就有了本篇文章。一、Avro提供的技术支持包括以下五个方面:优秀的数据结构;一个紧凑的,快速的,二进制数据格式;一个容器文件,用来存储持久化数据;RPC远程过程调用;集成最简单的动态语言

2021-01-08 22:17:51 546 32

原创 Hive的调优你都知道那些?

         我们在工作中还是在学习中有都会遇到我们写的SQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解。记得收藏一、Fetch抓取(Hive可以避免进行MapReduce)         Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在

2021-01-07 23:52:27 508 22

原创 一文教你学会Hive视图和索引

前言         我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。​一、Hive视图1.1 简介         Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELEC

2021-01-06 23:31:20 470 14

原创 深入讲解拉链表,还怕面试官问?

前言         今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解查看,好,废话不多说我们直接开始。提出的问题会在末尾讲解。一、拉链表介绍(百度百科)         拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优

2021-01-05 23:53:49 850 17

原创 数仓缓慢变化维深层讲解

前言         维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。举例说明      &n

2021-01-04 23:19:23 532

原创 数据仓库分层架构深度讲解

前言         我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。如果你还不了解数仓中的模型可以去看这篇(数仓模型设计详细讲解),编写不易请给个一键三连。一、为什么要分层         分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详

2021-01-03 20:43:49 790 23

原创 数仓模型设计详细讲解

前言         今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念         维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分

2021-01-03 00:01:59 1102 18

原创 那些被问懵的Flink面试题

前言         有没有去面试的时候被问到Flink的面试题你答不上来,为什么那?,菜吗? 不是。原因是你接触的面试题太少了,那我今天就根据不同的群体来给大家你分享。1 Flink基础(适合初入职场)简单介绍一下 FlinkFlink相比传统的Spark Streaming区别?Flink的组件栈有哪些?Flink 的运行必须依赖 Hadoop组件吗?你们的Flink集群规模多大?Flink的基础编程模型

2021-01-01 22:28:55 961 23

原创 FlinkSQL内置了这么多函数你都使用过吗?

前言         Flink Table 和 SQL 内置了很多 SQL 中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。一、系统内置函数         Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数。SQL 中支持的很多函数,Table API 和 SQL 都已经做了实

2020-12-30 23:13:43 716

原创 一篇文章带你深入理解FlinkSQL中的窗口

前言         时间语义,要配合窗口操作才能发挥作用。最主要的用途,当然就是开窗口、根据时间段做计算了。下面我们就来看看 Table API 和 SQL 中,怎么利用时间字段做窗口操作。在 Table API 和 SQL 中,主要有两种窗口:Group Windows 和 Over Windows(时间语义的文章推荐)...

2020-12-28 22:54:35 1319

原创 kettle生成节假日数据原来还可以这样操作?

前言         最近有好多小伙伴私信我,遇到一个问题在做数仓项目中遇到了瓶颈有的需求需要根据节假日去统计信息。但是由于节假日每年都不一样目前提供的方法没法动态的去获取关于节假日的信息。所以自己去编写一个实现类就完成这个操作。一、需求描述         在Hive中生成一个表用来保存关于日期的工具。目前大公司为了提高效率。创建一个日期表

2020-12-22 21:21:23 2283 29

原创 一篇文章让深入理解Flink SQL 时间特性

前言         基于时间的操作(比如 Table API 和 SQL 中窗口操作),需要定义相关的时间语义和时间数据来源的信息。所以,Table 可以提供一个逻辑上的时间字段,用于在表处理程序中,指示时间和访问相应的时间戳。         时间属性,可以是每个表 schema 的一部分。一旦定义了时间属性,它就可以作为一个字段引用,并且可

2020-12-21 23:23:03 2270 25

原创 玩爬虫不就是为了多爬取几个小姐姐吗,几十行代码快速获取小姐姐视频?

         又到了愉快的周末了,今天她不在家我们就来玩点骚操作,我们来玩点男人最喜欢干的事情,来爬取小姐姐视频,喜欢的朋友可以来个一键三连。一、分析页面这次我么爬取的是一个六间房的一个网页 官方地址: https://v.6.cn/minivideo/实现思路:通过抓包来找到我们想要的url路径拿到url发送请求返回我们数据解析数据将我们不需要的数据剔除掉将数据保存我们本地到这里我们就已近获取到ur

2020-12-20 21:50:00 2280 26

原创 一篇文章带你深入了解Flink SQL流处理中的特殊概念

         Table API 和 SQL,本质上还是基于关系型表的操作方式;而关系型表、关系代数,以及SQL 本身,一般是有界的,更适合批处理的场景。这就导致在进行流处理的过程中,理解会稍微复杂一些,需要引入一些特殊概念。接下来就分别讲一下这几种概念。一、流处理和关系代数(表,及 SQL)的区别         可以看到,其实关系代数(

2020-12-19 21:25:44 2092 27

原创 快速入门Flink SQL——Sink(Kafka、文本、MySQL、DataStream)

前言         表的输出,是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口,可以支持不同的文件格式、存储数据库和消息队列。         具体实现,输出表最直接的方法,就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。一、输入到文件...

2020-12-18 22:03:46 2108 24

原创 快速入门Flink SQL——Table与DataStream互转

前言         上述讲到,成功将一个文件里的内容使用SQL进行了一解析(快速入门Flink SQL —— 介绍及入门)本篇文章主要会跟大家分享如何连接kafka,MySQL,作为输入流和数出的操作。一、将kafka作为输入流         kafka 的连接器 flink-kafka-connector 中,1.10 版本的已经提供了

2020-12-17 23:12:01 2810 14

原创 快速入门Flink SQL —— 介绍及入门

前言         Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。目前功能尚未完善,处于活跃的开发阶段。         Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如 select、f

2020-12-16 22:12:30 3213 29

原创 2020年最新Spark企业级面试题【下】

前言        上篇文章给大家分享了前10个spark的企业面试题2020年最新Spark企业级面试题【上】,今天后续来了,来分享剩下的那个几个面试题。也祝大家找到自己喜欢的工作,一起加油,编写不易 请给老哥一个一键三连吧。一、手写Spark-WordCount在这里就有好多小伙吧说了,手写wordCount不简单吗?一点逻辑都没有,虽然你在idea中写的非常熟练,但是真到了面试的时候就有好多小伙伴写不出来了,往往越

2020-12-13 19:44:39 2162 1

原创 2020年最新Spark企业级面试题【上】

前言         现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。一、 Spark 有几种部署方式?spark 中的部署模式分为三种 Standalone, Apache Mesos, Hadoop YARN,那他们分别有啥作用那?Standalon

2020-12-12 20:19:28 2165 27

hbase 相关的笔记

欢迎大家来观看

2019-12-12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除