大数据
文章平均质量分 80
千山暮雪CN
年轻,所以无所畏惧!
展开
-
spark sql 数据倾斜--join 同时开窗去重的问题优化
spark数据倾斜企业经验原创 2023-08-24 11:49:48 · 3620 阅读 · 0 评论 -
HIVE 总结 五 Hive 查询
HIVE 总结 五 Hive 查询本篇总结hive操作的查询,毕竟在工作中查询才是用的最多的.而hive的查询基本上跟MySQL的查询是一样的.文章目录HIVE 总结 五 Hive 查询1.基本查询2.分组查询3.jion4.排序1.基本查询语法SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition]原创 2020-08-01 16:07:08 · 2964 阅读 · 1 评论 -
HIVE 总结 四 Hive DML数据操作
HIVE 总结 四 Hive DML数据操作本篇总结hive操作的数据的语法语句,这是常用的sql语法,毕竟用的多的还是CRUD1.数据导入语法load data [local] inpath ‘数据的path’ [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表(3)inpath:表示加原创 2020-08-01 09:12:21 · 496 阅读 · 0 评论 -
HIVE 总结 三 Hive DDL数据定义
HIVE 总结 三 Hive DDL数据定义本篇总结hive的数据定义,也就是表,库相关的操作命令关于hive的介绍,安装在前面两篇文章里面文章目录HIVE 总结 三 Hive DDL数据定义1.建库2.库的查询,修改,删除3.建表4.表的修改,删除,清除5.内部表(管理表)和外部表的区别1.建库语法CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][原创 2020-07-31 20:49:41 · 487 阅读 · 0 评论 -
HIVE 总结 二 Hive安装,配置,tez,及常用命令和数据类型
HIVE 总结 二 ,配置,tez,及常用命令和数据类型文章目录HIVE 总结 二 ,配置,tez,及常用命令和数据类型1.MySQL最小化安装在这里插入图片描述2.Hive 安装3.安装tez引擎4.启动Hive5.常用命令6.常见属性7.hive数据类型1.MySQL最小化安装检查系统上是否有残留的SQL,先进行卸载工作rpm -qa |grep mariadbsudo rpm -e --nodeps mariadb-libs将MySQL的安装包(.tar)拷贝到服务器上,进行解压原创 2020-07-30 14:53:21 · 712 阅读 · 0 评论 -
HIVE 总结 一 概述
HIVE 总结 一 概述基本概念由Facebook开源用于解决海量结构化日志的数据统计工具基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL的查询功能本质:是调用hadoop中yarn中container容器中的计算程序(引擎)Hive 处理的数据存储在HDFSHive 分析数据底层实现是MapReduce执行程序运行在yarn上优点SQL语法,简单易上手替换MapReduce编写,降低开发和学习成本基于hadoop,支持海量原创 2020-07-29 21:30:44 · 194 阅读 · 0 评论 -
Hadoop总结 六 HDFS 一 HDFS基础
Hadoop总结 六 HDFS 一 基础6.1 HDFS 概述HDFS 只是分布式文件管理系统中的一种HDFS 是一个文件系统,通过目录树定位文件,是分布式的HDFS 适合一次写入,多次读出的场景,且不支持文件的修改,适合文件存储和数据分析优点:1.高容错性数据自动保存多个副本,通过增加副本的形式提高容错性某个副本丢失,可以自动恢复2.适合处理大数据数据规模:能处理数据规模达到GB,TB,PB级别的数据文件规模:能够处理百万规模以上的文件数量3.可以构建在成本较低的原创 2020-07-28 23:53:12 · 171 阅读 · 0 评论 -
Hadoop总结 五 配置历史服务器 配置集群日志
Hadoop总结 五 配置历史服务器 配置集群日志5.1 配置历史服务器配置mapred-site.xml在该文件中增加如下配置<!-- 历史服务器端地址 --><property> <name>mapreduce.jobhistory.address</name> <value>hadoop103:10020</value></property><!-- 历史服务器web端地址 -原创 2020-07-28 20:49:06 · 423 阅读 · 0 评论 -
Hadoop 总结 四 配置集群
Hadoop 总结 四 配置集群分析:至少需要三台虚拟机(主机)(关闭防火墙,静态IP,主机名称)需要安装好JDK,Hadoop,以及环境变量的配置需要配置好集群需要单点启动需要节点间ssh配置启动并测试集群虚拟机准备见前两章,并将hadoop103,hadoop104进行同样的配置编写集群分发脚本#scp 安全拷贝 方式#语法:scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname#例:在Hadoop102上将jdk原创 2020-07-28 20:31:13 · 214 阅读 · 0 评论 -
Hadoop 总结 三 hadoop目录结构以及运行模式
Hadoop 总结 三 hadoop目录结构以及运行模式3.1 hadoop目录结构#查看目录ll总用量 52drwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 bindrwxr-xr-x. 3 atguigu atguigu 4096 5月 22 2017 etcdrwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 includedrwxr-xr-x. 3 atguigu atguigu 4096原创 2020-07-28 18:55:27 · 188 阅读 · 0 评论 -
Hadoop 总结 二 环境搭建(二)
Hadoop 总结 二 环境搭建(二)2.3. 安装JDK ,Hadoop卸载自带的JDKrpm -qa | grep -i java | xargs -nl sudo rpm -e --nodeps上传JDK,Hadoop压缩包使用FTP工具上传到/opt/software目录下,版本选择JDK1.8,Hadoop3.2安装JDK#查看压缩包是否上传成功ll /opt/software#解压JDK到/opt/module文件夹下面tar -zxvf jdk-8..原创 2020-07-28 17:00:27 · 172 阅读 · 0 评论 -
Hadoop 总结 二 环境搭建(一)
Hadoop 总结 二 环境搭建(一)2.1. 准备虚拟机模板本系列采用Linux系统环境 CentOS-7版本基本参数配置内存3-4G,硬盘20G-50G,进行小规模的测试,cpu 2核心关于网络,如果是一台真实主机安装虚拟机那么就采用nat网络模式,如果是真实的主机那么保证外网互相能联通或者局域网内能联通.准备环境#1.测试能联网ping www.baidu.com#2.安装必要的组件yum install -y epel-releaseyum install原创 2020-07-28 16:11:26 · 228 阅读 · 0 评论 -
Hadoop 总结 一 入门介绍
Hadoop 总结 一 入门介绍1.1 是什么?Apache基金会的 分布式系统基础架构应用于海量数据的存储,分析,计算的问题广义上讲,Hadoop通常指----Hadoop生态圈,类似Java开发中所指的spring,及spring全家桶的概念.1.2 Hadoop优势高可靠性:Hadoop底层维护多个数据副本存在于不同的DataNode上,所以可能有节点挂掉,也不会导致数据丢失,这里排除绝对的意外情况,比如自然灾害,或者人为因素.高扩展性:在集群中分配任务数据,可以方便的扩展大量原创 2020-07-27 21:36:52 · 157 阅读 · 0 评论