大数据
文章平均质量分 79
美美的大猪蹄子
没有天赋的码农
展开
-
docker搭建gitlab
Gitlab搭建前置条件已安装docker和docker compose配置docker-compose#1.创建目录 /opt/docker/gitlab#2.创建配置文件vim docker-compose.yml内容为:version: '3'services: gitlab: image: 'gitlab/gitlab-ce' restart: unless-stopped hostname: '172.xx.xxx.x'原创 2022-04-07 19:12:14 · 2229 阅读 · 0 评论 -
大数据总结
知识点文章目录知识点0. 介绍1. HDFS1.1 读数据1.2 写数据1.3 块大小1.4 Yarn调度1.4.1 Job提交流程1.4.2 调度器2. MapReduce、Hive2.1 运行过程2.1 切片大小2.2 CombineTextInputFormat2.3 压缩方式2.5 数据倾斜2.6优化2.5.1 慢的原因2.5.2 优化方案2.7 如何设置maptask、reducetask个数2.8 笛卡尔积的优化2.9 四种排序2.10 UDF、UDAF、UDTF 的区别2.11 行列转换2.原创 2021-12-14 17:27:51 · 2411 阅读 · 0 评论 -
数据中台初识
数据中台1. 中台产生业务发展前期,为了快速实现需求,烟囱式开发导致企业不同业务线不同的应用之间,数据是割裂的(数据孤岛)。两个数据应用的相同指标,展示的结果是不一致的,导致运营对数据信任度下降。另外数据割裂导致了大量的重复计算,浪费了人力和物力成本。数据中台是指通过数据技术对海量数据进行采集、计算、存储,同时统一标准和口径,形成全域级、可复用的数据资产中心和数据存储能力中心,形成大数据资产层,进而为客户提供高效的服务。狭义上的数据中台是一套实现数据资产化的工具,广义上的数据中台是一套利用数据帮助企原创 2021-05-27 00:27:02 · 1023 阅读 · 0 评论 -
数据仓库的MPP架构
数据仓库的MPP架构1.MPP架构的大数据计算引擎Impala、ClickHouse、Druid、Doris,采用MPP架构的很多OLAP引擎号称:亿级秒开2.MPP架构MPP是系统架构角度的一种服务器分类方法。目前服务器分类大概有三种:SMP(对称多处理器结构)NUMA(非一致存储访问结构)MPP(大规模并行处理结构)SMP即对称多处理器结构,就是指服务器的多个CPU对称工作,无主次或从属关系。SMP服务器的主要特征是共享,系统中的所有资源(如CPU、内存、I/O等)都是共享的转载 2021-04-05 18:14:20 · 2374 阅读 · 0 评论 -
数据仓库建模方法论
一、ER实体模型概念定义:在信息系统中,将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述;实体:Entity,关系:Relationship,这种对数据的抽象建模通常被称为ER实体关系模型实体:通常为参与到过程中的主体,客观存在的,比如商品、仓库、货位、汽车,此实体非数据库的实体表属性:对主体的描述、修饰即为属性,比如商品的属性有商品名称、颜色、尺寸、重量、产地等关系:现实的物理事件是依附于实体的,比如商品入库事件,依附实体商品、货位,就会有“库存”的属性产生;用户购买商品,依附实原创 2021-03-14 15:40:41 · 1300 阅读 · 1 评论 -
Docker容器
1, 安装docker安装docker社区版, 以CentOS为例:docker新老版本不兼容, 安装新版本前卸载老版本yum更新sudo yum update安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的sudo yum install -y yum-utils device-mapper-persi...原创 2019-12-11 21:02:31 · 136 阅读 · 0 评论 -
RDD算子
Transformation functionExplainmap(f: T ⇒ U): RDD[U]sc.parallelize(Seq(1, 2, 3)).map( num => num * 10 )flatMap(f: T ⇒ List[U]): RDD[U]sc.parallelize(Seq("Hello lily", "Hello lucy", "H...原创 2019-10-11 17:16:27 · 263 阅读 · 0 评论 -
Hadoop总结
Hadoop架构详解请点击:架构图解Hadoop架构(主从)NameNode active集群中的主节点,管理元数据,包括文件位置,权限,大小,副本等,周期性接收心跳和块的状态报告信息NameNode standby主节点的备用节点,当主节点宕机时,备用节点可以接替主节点工作;定期合并fsimage和fseditsSecondaryNameNode非HA模式下,用来对...原创 2019-09-22 15:14:43 · 147 阅读 · 0 评论 -
zookeeper总结
知识点总结,深入剖心请点击深入浅出Zookeeper.概念分布式协调服务框架,主要是用来解决分布式集群中应用系统的一致性问题(ZAB协议)和数据管理管理本质上是一个分布式文件系统,适合存放小文件分布式锁用于控制分布式系统之间同步访问共享资源的一种方式,可以保证系统访问资源的一致性排它锁获取锁 需要获取锁的客户端申请在/exclusive...原创 2019-09-21 20:38:15 · 135 阅读 · 0 评论 -
数据仓库-Hive(一)
数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面...原创 2019-09-19 18:15:59 · 1362 阅读 · 0 评论 -
Hadoop-Mapreduce
Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即...原创 2019-08-21 21:01:11 · 173 阅读 · 0 评论 -
深入浅出Zookeeper
文章目录Zookeeper1.Zookeeper 的概述2.Zookeeper的特点3.Zookeeper的应用场景3.1 数据发布/订阅3.2 命名服务3.3 分布式协调/通知3.4分布式锁3.5 分布式队列4.Zookeeper的架构4.1 写请求流程5.Zookeeper的选举机制5.1. 服务器启动时期的Leader选举5.2.服务器运行时期的Leader选举Zookeeper1.Zo...原创 2019-08-17 00:00:12 · 246 阅读 · 0 评论 -
Hadoop的架构模型
Hadoop1.Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架...原创 2019-08-22 13:02:07 · 716 阅读 · 0 评论 -
HDFS的高可用机制和联邦机制
1.HDFS的高可用机制1.1 HDFS高可用介绍 在Hadoop 中,NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。 在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode...原创 2020-08-25 23:02:05 · 422 阅读 · 0 评论 -
Hadoop核心(二)-HDFS-API操作
1.HDFS 的 API 操作1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop.dlUnable to load n...原创 2019-08-18 14:50:51 · 323 阅读 · 0 评论 -
Apache Impala
impala概念cloudera提供的高效率的SQL查询工具,和hive类似,但是执行效率极高,提供实时的查询效果与hive的最大不同之处在于impala不把sql编译成MapReduce程序运行,而是编译成计划树但是impala底层依赖于hive,与hive是公用一套元数据存储.所以在使用impala的时候,要保证hive服务正常可用,至少保证metastore服务可用impala的...原创 2019-09-02 21:13:28 · 91 阅读 · 0 评论 -
HBase总结
概念建立在hdfs上,是高可靠性、高性能、列存储、稀疏、易扩展、实时读写的nosql(not only sql)的数据库系统仅能通过 rowkey和来检索数据,仅支持单行事务hbase的数据类型都是byte[]和Hadoop的关系HBase列存储随机读写多次写、多次读依赖HDFS架构zookeeper保证任何时候集群中只有一个master实...原创 2019-09-18 09:56:25 · 186 阅读 · 0 评论 -
集群服务启动/停止脚本
zk start#!/bin/bashecho "****zookeeper starting****"for i in node01 node02 node03do ssh $i "source /etc/profile;/export/servers/zookeeper-3.4.9/bin/zkServer.sh start"doneecho "***Succ***"zk s...原创 2019-09-18 20:34:51 · 546 阅读 · 0 评论 -
Hadoop核心(一) 入门
Hadoop 核心-HDFS1. HDFS概述1.1 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS ...原创 2019-08-18 21:55:46 · 162 阅读 · 0 评论