大数据
文章平均质量分 58
Hydra.
天空没有留下我的痕迹,但我已飞过!无人观我博客,但我已写过!
展开
-
Hive启动报错(个人遇到问题&解决方法)
hive执行sql报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法:1、初始化mysql数据库 2、注释配置文件$H...原创 2022-04-25 15:56:28 · 3794 阅读 · 0 评论 -
ETL工作流程
ETL是指将业务系统的数据经过抽取、转换之后加载到数据仓库的过程,数据引入到系统,进行初步的处理,以备后续的数据处理环节的需求。简而言之,ETL的工作,就是输入各种数据源,输出是各种用于分析的表和数据文件。这个过程当中,就涉及到用来分析的数据是否易用、数据质量的好坏、数据是否完整、数据是否可信等关键性问题。ETL主要包含三大阶段,分别是数据抽取、数据转换、数据加载。1、数据抽取这个阶段的主要目标是汇总多种数据源,为下一步的转换做准备。在动手做抽取之前,你需要充分了解你的...转载 2020-08-17 10:57:57 · 7085 阅读 · 0 评论 -
HDFS简介
概述HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个namenode和很多个datanode组成:namenode管理文件系统的元数据,而datanode存储了实际的数据。客户端联系namenode以获取文件的元数据或修饰属性,而真正的文件I/O操作时直接和datanode进行交互的。系统中有一个namenode服务器,用来维护一个统一的虚拟目录结构,并记录每一个文件的元数据(文件名、文件总大小、文件分了几个块,每个块在哪些机器上,块的ID……..); 系原创 2020-08-10 19:10:18 · 242 阅读 · 0 评论 -
HADOOP分布式文件系统集群搭建
目录环境准备前期准备网络配置修改主机名关闭防火墙配置域名映射上传安装jdk修改master的环境变量:/etc/profile安装HDFS修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml利用scp命令复制到其他服务器上启动hdfs集群先初始化namenode的元数据存储目录:格式化启动namenode启动datanode访问namenode的web页面批量自动启动集群修改maste.原创 2020-08-10 17:16:15 · 806 阅读 · 0 评论