大数据老哥-CSDN博客

原创元旦要来了，考虑好要去哪里旅游了吗？Python爬取最全攻略！

前言 2020还有最后几天就就结束了，您考虑好2021的第一天去哪里旅游了吗，不如来看看使用Python爬取最全攻略！受益的朋友给个三连。转发请求声明。一、实现思路首先我们爬取的网站是一个穷游网站： https://place.qyer.com/我这里为大家编写了2个方式第一个就是获取中国范围内的旅游景点，和省级的旅游景点。我这还使用了词汇分析给大家进行展示。分析页面我要我们要爬取的页面URL

2020-12-27 21:34:59 3398 21

原创 MySQL的存储过程原来还可以这样玩？（还不收藏）

什么是存储过程，存储过程能干吗？本篇博客给带大家学习下存储过程，并进行实战操作。（建议收藏）一、什么是存储过程？MySQL5.0版本开始支持的存储过程。存储过程（Stored Procedure）是一种在数据库中存储复杂程序，以便外部程序调用的一种数据库对象。存储过程是为了完成特定功能的SQL语句集，经编译创建并保存在数据库中，用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上.

2020-08-28 22:14:54 9112 64

原创知乎实时数仓架构演进

“数据智能” (Data Intelligence) 有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代本文主要讲述知乎的实时数仓实践以及架构的演进，这包括以下几个方面实时数仓 1.0 版本，主题： ETL 逻辑实时化，技术方案：Spark Streaming。实时数仓 2.0 版本，主题：数据分层，指标计算

2021-11-11 20:48:54 1422

原创 ClickHouse深度解析，收藏这一篇就够了~

一、什么是ClickHouse？ ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS，简称CK, 与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级,查询性能非常好，使用之后会被它的性能折服，非常值得安利。二、适用场景志数据行为分析标签画像的分析数据

2021-11-10 21:11:59 9658

原创 Flink企业级优化

前言最近花了一个星期的时间给大家整理了一份Flink优化从多方面下手。末尾有彩蛋。如果对大家有帮助动动发财的小手来个三连，感谢大家~1、资源配置调优 Flink性能调优的第一步，就是为任务分配合适的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的

2021-11-03 14:53:12 2541 10

翻译 Flink 基本工作原理

Flink是新的stream计算引擎，用java实现。既可以处理stream data也可以处理batch data，可以同时兼顾Spark以及Spark streaming的功能，与Spark不同的是，Flink本质上只有stream的概念，batch被认为是special stream。Flink在运行中主要有三个组件组成，JobClient，JobManager 和 TaskManager。主要工作原理如

2021-10-14 17:26:07 1943

原创大数据框架发展史

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。 .

2021-10-14 17:24:38 1846

转载程序员面试 10 大潜规则，千万不要踩坑！

作者：姿势帝https://www.cnblogs.com/newAndHui/p/12451882.html潜规则1：面试的本质不是考试，而是告诉面试官你会做什么很多刚入行的小伙伴特别容易犯的一个错误，不清楚面试官到底想问什么，其实整个面试中面试官并没有想难道你的意思，只是想通过提问的方式来知道你会什么比如：面试官提问在实际项目中你们是怎么样使用缓存的？初入行回答：使用redis，key-value存放但是面试官可能是想知道：一般在业务中缓存什么样的数据，为什么要缓存这些数据，缓存数据如何保证实时性，如果

2021-10-11 21:10:19 1564

原创大数据环境下的数仓是如何管理元数据的

前言元数据管理是企业数据治理的基础，是数据仓库的提升。作为一名数据人，首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念，介绍元数据管理在数据仓库的地位、场景及工具。1、什么是数据仓库的元数据管理？1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。‘’抽象的描述：一组用于描述数据的数据组，该数据组的一切信息都描述了该数

2021-09-24 14:08:32 1773

转载 Hive从入门到精通，HQL硬核整理四万字，全面总结，附详细解析，赶紧收藏吧！！

一、了解Hive1、Hive的概念及架构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 的开发者开发自定义的 mapper

2021-09-13 16:29:53 2657

转载三大组件HDFS、MapReduce、Yarn框架结构的深入解析式地详细学习【建议收藏！】

我们知道目前Hadoop主要包括有三大组件，分别是：分布存储框架（HDFS）、分布式计算框架（MapReduce）、以及负责计算资源调度管理的平台（Yarn），那么今天我们就来解析式的深入学习了解这三大组件。*

2021-09-09 15:50:21 2536

转载 Kafka与Pulsar的区别在哪？为什么会成为下一代的消息中间件之王？

前言在本系列的Pulsar和Kafka比较文章中，我将引导您完成我认为重要的几个领域，并且对于人们选择强大，高可用性，高性能的流式消息传递平台至关重要。消息传递模型(Messaging model)是用户在选择流式消息传递系统时应首先考虑的事情。消息传递模型应涵盖以下3个方面：Message consumption(消息消费)：如何发送和消费消息Message Acknowledgement(消息确认)

2021-09-09 15:47:58 1795

转载企业级数据迁移（sqoop建议收藏）

数据导出/迁移的概念在做数据导出之前，我们看一下已经完成的操作：数据分析阶段将指标统计完成，也将统计完成的指标放到Hive数据表中，并且指标数据存储到HDFS分布式文件存储系统。指标统计完成之后，我们最终是想将我们的指标数据做成可视化大屏进行展示，Hive中的数据无法、很难直接连接到JavaWeb或者EE技术

2021-09-06 15:03:37 1520

转载干货分享 | Hive调优小技巧

Hive作为大数据领域常用的数据仓库组件，在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大；数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。架构优化

2021-08-16 15:51:05 1929 15

原创学kudu这一篇就够了

前言最近在招聘要求下突然看到了Apache kudu 于是花了几天时间研究了下，下面简单的给大家介绍下记得收藏。一、Kudu 介绍1.1、背景介绍在KUDU之前，大数据主要以两种方式存储；【1】：静态数据

2021-07-06 10:08:43 3168 143

原创 HBase最新面试题总结

最近看了好多粉丝的面试题，于是总结出关于HBase相关的面试题，今天分享给大家，认真观看，记得收藏一、讲一下 Hbase 架构Hbase主要包含HMaster/HRegionServer/ZookeeperHRegionServer 负责实际数据的读写. 当访问数据时, 客户端直接与RegionServer通信.HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个

2021-04-18 20:31:41 4100 1

原创听说你们写毕业设计没有动态数据？Python教你一步完成!

前言最近又到了写毕业论文的季节了，有好多粉丝朋友私信我说老哥能不能帮我爬点数据让我来写论文，这时正好有位小女生正在打算买只小喵咪，于是老哥在全网搜索于是发现了下面的网站只好动动自己的小手，来完成这个艰巨的任务了，有喜欢爬虫的同学，或有需要爬取数据的同学可以私聊老哥。页面分析我们通过访问一下地址：htt

2021-04-18 11:08:22 1814 20

原创 Flink中的异步IO

前言 Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性，于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求 Flink在做流数据计算时，很多时候需要与外部系统进行交互（比如数据库、Redis、Hive、HBase等等存储系统）。往往需要注意系统间

2021-04-06 21:44:31 4045 21

原创史上最全Spark高级RDD函数操作

前言本篇文章主要介绍高级RDD操作，重点介绍键值RDD，这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题，如自定义分区，这是你可能最想要使用RDD的原因。使用自定义分区函数，你可以精确控制数据在集群上的分布，并相应的操作单个分区。创建数据集 val myCollection = "WeChat official account big data brother" .split("

2021-03-18 23:32:28 2345 19

原创 Hive常用DDL操作

一、Database1.1 查看数据列表show databases;1.2 使用数据库USE database_name;1.3 新建数据库语法：CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的 [COMMENT database_comment] --数据库注释 [LOCATION hdfs_path] --存储在 HDFS 上的位置 [WITH DBPROPER

2021-03-07 20:25:12 1472

转载 Spark调优秘诀

前言每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中，内存都消耗在哪了？1.每个Java对象都有一个包含该对象元数据的对象头，其大小是16个Byte。由于在写代码时候，可能会出现这种情况：对象头比对象本身占有的字节数更多，比如对象只有一个

2021-03-02 21:26:36 1486

转载大厂都在使用的Hive优化

Hive作为大数据分析领域常用的仓库工具，即使是现在流式计算如火如荼背景下，Hive依然倍受各大厂商挚爱。使用Hive过程中，面对各种各样的查询需求，需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此，感谢作业的辛勤付出。《Hadoop 数据仓库实践》一书值得品读。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化等。此处记录下来，仅为学习和加强记忆。...

2021-03-01 17:40:32 1541

转载都说Kafka牛看完这篇就够了

前言系统间的耦合高怎么办，我们如何不让一个服务过于庞大，一个好的方式就是依据具体的功能模块拆分服务，降低服务的耦合度，服务间的交互可以通过消息传递数据来实现，除此之外Kafka非常适合在线日志收集等高吞吐场景，kafka有更好的吞吐量，内置分区，副本和故障转移，这有利于处理大规模的消息，所以kafka被各大公司广泛运用于消息队列的构建：消息队列模型-生产者消费者模型Kafka基本概念和架构模型Kafk

2021-02-27 15:21:24 1728

原创最新Hive的高频面试题新鲜出炉了！

导语最近也是到了准备面试的时候了于是老哥我也自己整理了一些关于Hive的常问的面试题于是跟大家分享下，同时我也会将这些题目同步到GitHub上GitHub还有好多资源如Flink面试题，Spark面试题，程序员必备软件，hive面试题，Hadoop面试题，Docker面试题，简历模板请去下方链接下载 https://github.com/lhh2002/Framework-Of-BigData对你们有帮助记得 star 。希望打算换工作的朋友或找工作的朋友对你们有些帮助，最后预祝大家新的一年升职加薪，好

2021-02-19 22:08:43 1862 12

hbase 相关的笔记

空空如也