屋顶上的Rachel
码龄6年
关注
提问 私信
  • 博客:18,077
    社区:22
    18,099
    总访问量
  • 34
    原创
  • 953,879
    排名
  • 1
    粉丝
  • 0
    铁粉

个人简介:你才懒

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2018-08-30
博客简介:

weixin_43100458的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得12次收藏
创作历程
  • 6篇
    2022年
  • 28篇
    2021年
成就勋章
兴趣领域 设置
  • 测试
    selenium测试用例postman
  • 软件工程
    jira
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数仓分层概念

数仓分层概念1.1 为什么要分层1.2 分层结构图1.3 关于区分数据集市与数据仓库1.1 为什么要分层1.2 分层结构图数据分层原理1、ODS层(原始数据层)原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。2、DWD层(明细数据层)结构和粒度与ODS层保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据),也有公司叫DWI。3、DWS层(服务数据层)以DWD为基础,进行轻度汇总。一般聚集到以用户当日,设备当日,商家当日,商品当日等等的粒度。
原创
发布博客 2022.01.29 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(1)数仓项目

(1)数仓项目1.数仓概念2.项目需求2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统架构图设计2.2.3 系统数据流程设计1.数仓概念2.项目需求2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统架构图设计2.2.3 系统数据流程设计...
原创
发布博客 2022.01.26 ·
1654 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CAP理论以及kafka当中的CAP机制

CAP理论以及kafka当中的CAP机制1.1、分布式系统当中的CAP理论1.2、Partition tolerance1.3、Consistency1.4、Availability1.5、kafka当中的CAP应用1.1、分布式系统当中的CAP理论分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。分布式系统的最大难点,就是各个节点的状态如何同步。为了解决各个节点之间的状态同步问题,在1998年,由加州大学的计算机科学家 Eric Brewer 提出分布
原创
发布博客 2022.01.24 ·
1371 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka消息不丢失制

kafka消息不丢失制1.1、生产者生产数据不丢失1.1.1、生产者数据不丢失过程图1.1.2、发送数据方式1.1.3、ack机制(确认机制)1.2、kafka的broker中数据不丢失1.3、消费者消费数据不丢失1.1、生产者生产数据不丢失1.1.1、生产者数据不丢失过程图说明:有多少个分区,就启动多少个线程来进行同步数据1.1.2、发送数据方式可以采用同步或者异步的方式-过程图可以采用同步或者异步的方式同步:发送一批数据给kafka后,等待kafka返回结果1、生产者等待10s,如
原创
发布博客 2022.01.22 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka集群操作-JavaAPI操作

kafka集群操作-JavaAPI操作1.2、kafka集群操作-JavaAPI操作1.2.1、添加依赖1.2.2、生产者代码1.2.3、消费者代码1.2、kafka集群操作-JavaAPI操作1.2.1、添加依赖创建maven工程并添加以下依赖jar包的坐标到pom.xml下面展示一些 内联代码片。<dependencies> <dependency> <groupId>org.apache.kafka</groupId>
原创
发布博客 2022.01.21 ·
1573 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka集群操作

Kafka集群操作1.1、kafka集群操作-控制台操作1.1.1、创建一个Topic1.1.2、查看主题命令1.1.3、生产者生产数据1.1.4、消费者消费数据1.1.5、运行describe topics命令1.1.6、修改topic属性1.1.6.1、增加topic分区数1.1.6.2、增加配置1.1.6.3、删除配置1.1.6.4、删除topic1.1、kafka集群操作-控制台操作1.1.1、创建一个Topic创建了一个名字为test的主题, 有三个分区,有两个副本node01执行以下命
原创
发布博客 2022.01.21 ·
189 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Yarn资源调度

Yarn资源调度1.yarn的介绍:1.1yarn当中的各个主要组件的介绍1.2 yarn当中各个主要组件的作用:1.3 关于yarn常用参数设置1.yarn的介绍:yarn是hadoop集群当中的资源管理系统模块,从hadoop2.x开始引入yarn来进行管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以及运行在yarn上面的各种任务。总结一句话就是说:yarn主要就是为了调度资源,管理任务等其调度分为两个层级来说:一级调度管理:计算资源管理(CPU,内存,网络IO,磁盘)
原创
发布博客 2021.11.27 ·
1222 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mapreduce参数优化

mapreduce参数优化1.mapreduce参数优化1.1 资源相关参数1.2 shuffle性能优化的关键参数,应在yarn启动之前就配置好1.3 容错相关参数1.4 本地运行mapreduce 作业1.5 效率和稳定性相关参数1.mapreduce参数优化1.1 资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单
原创
发布博客 2021.11.25 ·
426 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapTask及ReduceTask的运行机制

MapTask及ReduceTask的运行机制1.MapTask运行机制详解以及Map任务的并行度1.1详细步骤:1.2mapTask的一些基础设置配置(mapred-site.xml当中设置):2.ReduceTask 工作机制以及reduceTask的并行度2.1详细步骤:3.MapReduceshuffle过程1.MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内
原创
发布博客 2021.11.20 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce的详细介绍(一)

MapReduce的详细介绍(一)1 MapReduce程序运行模式1.1 本地运行模式1.2 集群运行模式2.1 MapReduce的分区与reduceTask的数量2.2 MapReduce排序以及序列化2.3 MapReduceshuffle过程1 MapReduce程序运行模式1.1 本地运行模式本地运行模式(1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上(3)怎样实现本地
原创
发布博客 2021.11.16 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分布式计算框架MapReduce入门

分布式计算框架MapReduce入门1.1、理解MapReduce思想1.2、Hadoop MapReduce设计构思1.3、MapReduce框架结构1.4、MapReduce编程规范1.1、理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简
原创
发布博客 2021.11.15 ·
116 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分布式文件系统hdfs的介绍

分布式文件系统hdfs的详细介绍1.1 hadoop的文件系统1.2 hdfs分布式文件系统设计的目标:1.3 HDFS的架构图之基础架构1.3.1 NameNode与Datanode的总结概述1.4 secondarynameNode如何辅助管理FSImage与Edits文件1.1 hadoop的文件系统hadoop的文件系统:文件系统:是一个顶层的抽象,具体的实现,需要取决于你自己的获取的实例,我们可以通过文件系统获取本地文件系统,操作linux磁盘上面的文件,也可以获取分布式文件系统,操作h
原创
发布博客 2021.11.13 ·
1457 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS的命令使用及特性

HDFS的命令使用及特性1、hdfs的高级使用命令1.1HDFS文件限额配置1.2 数量限额1.3空间大小限额2.hdfs的特性3.hadoop的架构模型3.1 hadoop1.x的架构模型:3.2 hadoop 2.x当中的架构模型:1、hdfs的高级使用命令1.1HDFS文件限额配置hdfs文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量.1.2 数量限额hdfs dfs -
原创
发布博客 2021.11.13 ·
1606 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH版本的zookeeper环境搭建

CDH版本的zookeeper环境搭建1、 CDH版本hadoop重新编译1.1为什么要编译hadoop2、CDH版本的zookeeper环境搭建2.1、下载,解压2.2、修改配置文件2.3、启动zk服务1、 CDH版本hadoop重新编译1.1为什么要编译hadoop由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于cdh给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题。
原创
发布博客 2021.11.11 ·
662 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2021-11-09第三种:NameNode高可用与ResourceManager单节点架构模型

hadoop的架构模型hadoop的架构模型(1.x,2.x的各种架构模型介绍)1.1 1.x的版本架构模型介绍2.2 2.x的版本架构模型介绍hadoop的架构模型(1.x,2.x的各种架构模型介绍)1.1 1.x的版本架构模型介绍文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:JobT
原创
发布博客 2021.11.09 ·
500 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

2021-11-04

zookeeper的shell操作1.1、zookeeper的shell操作1.1.1、客户端连接1.1.2、shell操作2.1、zookeeper的数据模型2.1.1、节点类型2.2、zookeeper的javaAPI2.2.1、节点的操作1.1、zookeeper的shell操作1.1.1、客户端连接运行 zkCli.sh –server ip 进入命令行工具。1.1.2、shell操作创建节点create [-s] [-e] path data acl其中,-s 或-e 分别指定
原创
发布博客 2021.11.04 ·
1029 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux的shell编程

linux的shell编程1.linux的shell编程1.1 shell 变量1.2 shell 运算符2.1流程控制2.1.2for循环2.1.3 while语法2.1.4case语句1.linux的shell编程Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shel
原创
发布博客 2021.11.02 ·
812 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

linux基础增强命令

linux基础增强1 linux基础增强1.1查找命令1.2 find命令1.3Locate命令1.4whereis命令1.5which命令2.1 用户与用户组2.2 sudo使用2.3 linux的权限管理1 linux基础增强1.1查找命令grep命令grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。格式: grep [option] pattern [file]可使用 —help 查看更多参数。使用实例:ps -ef | grep sshd
原创
发布博客 2021.10.31 ·
503 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2021-10-29

Maven的概述1 maven的概念2 Maven的作用4.仓库中存放的内容5 maven的坐标1 maven的概念 Maven是项目进行模型抽象,充分运用面向对象的思想,Maven可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 Maven 构建脚本就可以构建简单的项目。说白了: ==Maven是由Apache开发的一个工具。==用来管理jav
原创
发布博客 2021.10.29 ·
77 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

字节缓冲流、转换流概述

字节缓冲流、转换流概述1.1字节缓冲区流的概述和使用1.1.1 字节缓冲流的作用是?1.1.2 为什么字节缓冲流的构造方法需要传入一个OutputStream2.1 转换流出现的原因2.1.1字节流读数据可能出现问题2.2 编码表概述和常见编码表2.2.1 什么是编码表?2.2.2 乱码问题2.3 String类中的编码和解码问题2.3.1 方法摘要&编码和解码3.3字符缓冲区流的概述3.4 字符缓冲区流的特殊功能1.1字节缓冲区流的概述和使用1.1.1 字节缓冲流的作用是?字节流一次读写一
原创
发布博客 2021.10.24 ·
106 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多