hadoop
文章平均质量分 82
不埋雷的探长
深耕BigData技术,专注于大数据技术领域的知识分享。CSDN认证博客专家,目前就职于腾讯,内推可私聊~ 热爱软件,喜欢编程的阳光小伙子~ 千万千万不要放弃学习,千万千万要搞好人际关际,共勉~
展开
-
大数据仓库建设质量度量体系构建【已实践】
先来回忆一下数仓建设经常遇到的一些坑 或 现象~ 还在为如何评估数仓建设质量而犯愁么?本文在常规的分层建设、划分主题外将带大家一起探索出了一条可在大、小团队均可实施落地的数仓建设质量体系构建之路。 为此,从完善度、复用度、规范度、资源度全面衡量数仓建设质量。那问题来了,如何构建这4个核心指标呢。如下表所示: 现在有了数仓质量的度量指标体系,新问题也来了。现有的任务及库表在线上运行及相互依赖引用极多,直接贸然改动可能引起线上问题!!!那该如何“落地”呢?1、任务名称规原创 2022-10-24 22:38:02 · 658 阅读 · 0 评论 -
LEFT JOIN 与 RIGHT JOIN
一、SQL LEFT JOIN 关键字LEFT JOIN 关键字会从左表 (table_name1) 那里返回所有的行,即使在右表 (table_name2) 中没有匹配的行。LEFT JOIN 关键字语法SELECT column_name(s)FROM table_name1LEFT JOIN table_name2ON table_name1.column_name=table_name2.column_name注释:在某些数据库中, LEFT JOIN 称为 LEFT OUT原创 2021-08-25 07:20:38 · 2426 阅读 · 4 评论 -
Hive SQL 小表与大表Join 原理与实操
在数据开发时,经常遇到需要将大表某些暗文翻译成明文,正常的做法是将暗文与明文通过维度建立起映射关系,一般在数据分析时通过与维度进行join 关联。但往往 join的话,发现运行效率慢、耗时过长、甚至连接操作会发生OOM。本文就是通过介绍map join 解决小表与大表join 运行过慢的问题。原创 2021-08-07 23:27:07 · 8255 阅读 · 4 评论 -
数据仓库分层设计思想
为什么要对数据仓库进行分层合理的数据仓库分层一方面可以减少耦合,提高重用性,可读性,可维护性,另一方面还可以提高操作效率,影响数据需求迭代的速度。实际上,它影响了产品的及时性。建立数据层次结构可以优化公共层,避免烟囱发展,可见适当合理的数据仓库分层极为重要。通用分层设计思路工作上,我们一般会将数据模型分为三层:数据运营层(ODS)、数据仓库层(DW)和 数据应用层(APP)。可以这样理解为:ODS 层存放的是接入的原始数据,DW层是存放我们要重点设计的数据仓库中间层数据,APP是面向业务定制原创 2021-04-18 15:12:26 · 1026 阅读 · 4 评论 -
如何处理数据仓库的DWS层
关于数据仓库的分层,似乎我们都有共同的理解。但这是关于每个层应该如何建模的,也许每个人都有自己的理解。数据建模无疑是数据仓库建设的重中之重,那么在实际的开发过程中,大量的时间会花费在需求开发上,数据建模常常被忽略(在特殊的DWS层建模中)。 从长远来看,数据模型变得越来越混乱,指标的口径无法统一,结果是:尽管有很多表,但是很难获取数据。本文主要介绍DWS层建模的基本方法,希望对您有所帮助。为什么要对数据仓库进行分层合理的数据仓库分层一方面可以减少耦合,提高重用性,可读性,可维护性,另一方面还可以提高原创 2021-04-18 14:25:30 · 1557 阅读 · 1 评论 -
HDFS文件系统JAVA api访问接口(基于hadoop大数据平台)
在搭建完hadoop大数据系统(我是使用CDH5.16.1进行安装)后,如何访问hdfs文件系统上的数据呢?那当然是通过构建maven项目 使用java api接口进行文件了。为此,特别进行了hdfs文件系统java api访问的整理。下面就附录上我的CDH5.16.1平台上安装的各组件版本说明。说明:如果需要CDH5.16.1安装教程的,可以给我留言哦~jdk ...原创 2019-06-11 22:53:18 · 1611 阅读 · 0 评论 -
超时用集群脚本ync.sh、xcall.sh
#节点分发脚本,将某一台节点上的数据,分发到集群中每一个节点中的同样的路径# 节点分发脚本,将某一台节点上的数据,分发到集群中每一个节点中的同样的路径#!/bin/bash# 1 get the number of input parameters, if there i no parameter, quit directlypcount=$#if((pcount==0)); ...原创 2019-04-01 11:45:53 · 1344 阅读 · 0 评论 -
hadoop集群小项目实践及遇到问题解决办法
小项目功能说明:创建外部分区表hmbbs,分区字段当天日期为$CURRENT,用于记录清洗后的日志信息使用flume工具将浏览日志传入flume使用脚本对数据进行清洗并将清洗后的数据保存到/cleaned/$CURRENT目录下为数据库hmbbs添加分区,即将清洗后的数据添加到数据库中查询有效信息数据,并将有效信息输出到hive表中,实际数据存储在hdfs中将hdfs有效信息数据,导出到windows平台下的MySQL实践步骤:原创 2017-07-03 17:52:26 · 1889 阅读 · 0 评论 -
hadoop集群搭建
事先说明一下哈,我这一个hadoop集群搭建,是参考视频教学搭建而来的。 hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等,所以我们这一次搭建时使用hadoop 2.2.0版本。注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的也上传到群共享里了,如果有兴原创 2017-06-28 19:07:20 · 1114 阅读 · 2 评论 -
hadoop集群启动脚本——解决启动hadoop集群时,效率低问题
解决启动hadoop集群时,效率低问题当搭建好了hadoop集群时,需要先启动协调zookeeper,再启动hdfs,最后启动yarn,很麻烦呀,效率太低了,有木有!!!!!!!!!!原创 2017-06-28 19:12:11 · 1239 阅读 · 0 评论 -
hadoop集群停止脚本
解决停止hadoop集群时,效率低问题当搭建好了hadoop集群时,启动hadoop集群后,需要停止集群工作,需要先停止yarn,需要停止hdfs,需要停止zookeeper,很麻烦呀,效率太低了,有木有!!!!!!!!!!原创 2017-06-28 19:14:28 · 1227 阅读 · 0 评论 -
hadoop集群查看进程情况【超实用】
hadoop集群查看进程情况原创 2017-06-28 19:16:43 · 10351 阅读 · 4 评论 -
超详细zookeeper集群搭建及解析说明
超详细zookeeper集群搭建及解析说明原创 2017-06-28 19:19:40 · 1622 阅读 · 0 评论