2020年12月_May--J--Oldhu

原创 Hive常用设置命令（不显示info信息，开启动态分桶，设置本地模式，显示当前数据库，设置reduce个数）

Hive常用设置命令Hive常用设置命令1.不显示 info 信息2.设置 hive 属性在命令行显示当前数据库3.开启动态分区设置4.开启动态分桶5.order by可以按照位置编号排序6.设置reduce个数7.设置本地模式缩短运行时间Hive常用设置命令可以在hive-site.xml中进行长久设置1.不显示 info 信息set hive.server2.logging.operation.level=NONE2.设置 hive 属性在命令行显示当前数据库set hive.cli.p

2020-12-23 18:43:51 2033 3

原创 NoSQL(NoSQL概念，优点，与RDB对比，基本概念，分类，与BI,大数据关系)

一.NoSQL1.什么是NoSQLNoSQL：not only SQL，非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的，且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题注：非原子性：字段可拆2.为什么使用NoSQL(NoSQL优点)高并发读写高存储量高可用性高扩展性低成本3.NoSQL和关系型数据库对比对比NoSQL关系型数据库常用数据库HBase、MongoDB、R

2020-12-22 11:19:40 937

原创 hive优化（expalin执行计划，本地模式，数据倾斜，并行执行，严格模式，JVM重用，推测执行）（五）

hive优化一.explain(执行计划)1.基本语法2.示例二.Fetch抓取（默认已开启）三.本地模式四.表的优化1.小表、大表join2.大表jion大表（1）空key过滤（2）空key转换3.MapJoin（默认已开启）（1）开启 MapJoin 参数设置（2）MapJoin工作机制（3）示例演示4.Group by5.Count(Distinct)去重统计6.笛卡尔积7.行列过滤8.动态分区调整9.分桶或分区五.数据倾斜1.调整Map数（1）小文件进行合并，减少map数（默认开启）（2）复杂文件增

2020-12-22 08:28:51 308

原创项目实战-电子商务消费行为分析

电子商务消费行为分析一.简单介绍1.需要技能点2.需求概述二.前提条件三.问题分析1.Customer表2.Transaction表3.Store表4.Review表5.数据结构四.数据准备和了解1.数据获取2.检查行数和header行3.上传数据到HDFS4.创建适当的外部表来保存数据5.查看并了解数据五.数据清洗1.Clean and Mask customer_details2.Clean transaction_details into partition table3.Clean store_re

2020-12-21 17:42:04 2208

原创 Hive函数（内置函数（字符串函数，数学函数，日期函数，集合函数，条件函数，聚合函数，表生成函数）和自定义函数（自定义函数创建流程，临时函数，永久函数）））（四）

Hive函数（内置函数和自定义函数）一.内置函数1.字符串函数（1）ascii（2）base64（3）concat（4）concat_ws（5）format_number（6）substr,substring（7）instr（8）length（9）locate（10）printf（11）str_to_map（13）unbase64（14）upper，ucase（15）lower，lcase（16）trim,ltrim，rtrim（17）regexp_replace（18）regexp_extract（19）

2020-12-17 19:07:36 1986

原创 hive表实现行转列和列转行

hive表行转列和列转行t1itemnumA1,2,3,4B2,5,1行转列（lateral view explode）--使用侧视图lateral view explode进行行转列create table t3 as with r1 as (select item ,nums from t1 lateral view explode(split(num,",")) t as nums) select * from r1;select * from t3;

2020-12-17 15:16:40 352

原创 Hive基础（数据类型，数据结构，数据库操作，数据表操作，内部表，外部表，临时表，装载数据，分区表，分桶表，视图，侧视图）（二）

Hive基础（数据类型，数据结构，数据库操作，数据表操作，内部表，外部表，临时表，装载数据，分区表，分桶表，视图，侧视图）八.hive数据类型1.基本数据类型（类似于SQL数据类型）2.集合数据类型九.hive数据结构十.数据库增删改查1.创建数据库2.使用数据库3. 查看数据库信息4.修改数据库信息5.查看当前数据库6. 删除数据库7.删除带表的数据库(强制删除)8.过滤显示查询的数据库9.显示当前数据库十一.数据表（table）1.建表语法(1)字段解释说明（2）Storage SerDe（3）Hive

2020-12-14 19:24:37 209

原创 hive初级练习50题（详细过程）

hive初级练习50题一.建库和建表1.表信息（1）课程表（course.txt）（2）成绩表（score.txt）（3）学生表（student.txt）（4）教师表（teacher.txt）2.建库建表二.练习50题(详细过程)1.查询"01"课程比"02"课程成绩高的学生的信息及课程分数2.查询"01"课程比"02"课程成绩低的学生的信息及课程分数3.查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩4.查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩 (包括有成绩的和无成绩的)5

2020-12-12 14:40:35 2938 3

原创 Hadoop优化（MapReduce优化方法数据输入，map，reduce，数据倾斜进行调优）（八）

Hadoop优化一.MapReduce优化需要考虑的点1.计算机性能2.I/O操作优化二.MapReduce优化方法1.数据输入2.Map 阶段3.Reduce阶段4.数据倾斜问题5.常用的调优参数（1）资源相关参数（2）容错相关参数（mapreduce）一.MapReduce优化需要考虑的点MapReduce程序效率取决于以下几点：1.计算机性能CPU，内存，磁盘健康，网络2.I/O操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过

2020-12-11 13:56:01 290

原创 MapReduce详细工作流程解析

MapReduce工作流程一.流程示意图二.流程详解1.split阶段2.map阶段3.Shuffle阶段4.Reduce阶段5.注意三.各个阶段的工作机制1.InputFormat数据输入1.1FileInputFormat抽象类1.1.1FileInputFormat源码解析1.1.2FileInputFormat切片大小的参数配置1.1.3获取切片信息1.1.4总结1.2FileInputFormat实现类1.2.1TextInputFormat1.2.2KeyValueTextInputFormat

2020-12-10 18:57:54 8110 1

原创 HDFS支持的文件格式（SequenceFile，Avro，RCFile，Parquet）(七)

支持的文件格式一.支持的文件格式一.支持的文件格式SequenceFile 以二进制键值对的形式存储数据,支持三种记录存储方式。➢ 无压缩：io 效率较差，相比压缩，不压缩的情况下没有什么优势。➢ 记录级压缩：对每条记录都压缩，这种压缩效率比较一般。➢ 块级压缩：这里的块不同于 hdfs 中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一个块。Avro 将数据定义和数据一起存储在一条消息中，其中数据定义以 JSON 格式存储，数据以二进制格式存储。Avro 标记用于将大型数据集分割

2020-12-09 16:00:25 1709

原创 DataNode工作机制（心跳机制，掉线判断时限参数）（六）

DataNode工作机制数据节点。就是Slave，实际存储数据块的节点，Namenode下达命令，DataNode执行实际操作。1、存储管理用户的文件块数据2、定期向 namenode 汇报自身所持有的 block 信息（通过心跳信息上报）一个数据块在DataNode上以文件形式存储在对应服务器的磁盘上。包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 DataNode 启动后向 NameNode 注册，通过后，周期性（1 小时）的

2020-12-09 15:30:31 1325

原创 HDFS-NN和SNN的关系(nn,snn工作机制，fismage,edits解析，checkpoint时间设置，NN故障处理，安全模式)（五）

HDFS-NameNode和SecondaryNameNode的关系一.NN和SNN工作机制1.第一阶段：NameNode启动2.第二阶段：Secondary NameNode工作二.Fsimage和Edits解析1.概念2.使用oiv查看fsimage文件（1）查看oiv和oev命令（2）基本语法（3）示例3.oev查看edits文件（1）基本语法（2）示例三.checkpoint时间设置四.NamNode故障处理1.方法一：将SecondaryNameNode中数据拷贝到NameNode存储数据的目录2

2020-12-09 15:04:01 906

原创 Zookeeper分布式环境搭建

Zookeeper分布式环境搭建一.分布式安装部署1.前置条件2.集群规划3.解压安装4.配置zoo.cfg文件5.集群操作二.配置参数解读1.tickTime2.initLimit:LF初始通信时限3.syncLimit：LeaderFollwer同步通信时限4.dataDir5.clientPort一.分布式安装部署1.前置条件安装三台linux虚拟机jdk安装完成三台机器防火墙已经关闭2.集群规划在hadoop001、hadoop002和hadoop003三个节点上部署Zookeep

2020-12-07 09:44:29 1099

原创 HDFS的Shell操作（二）

HDFS的Shell操作1.基本语法2.命令大全3.常用命令1.基本语法bin/hdfs dfs 具体命令2.命令大全[root@hadoop101 hadoop]$ bin/hdfs dfs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [

2020-12-06 21:04:07 146

原创 HDFS概述产生背景，优缺点以及HDFS组成架构（一）

HDFS概述产生背景，优缺点以及HDFS组成架构05.HDFS一.HDFS概述1.为什么出现HDFS？2.什么是分布式文件系统？3.HDFS概念4.HDFS优缺点（1）优点（2）缺点二.HDFS组成架构1.Client2.NameNode3.DataNode4.Secondary NameNode三.HDFS文件块05.HDFS一.HDFS概述1.为什么出现HDFS？随着数据量越来越大，需要存储和处理的数据量也就越来越大。我们操作使用操作系统的存储空间是有限的。因此需要把多个操作系统综合成一个大的操

2020-12-06 20:53:44 255

原创 Exception in thread “main“ java.lang.NoSuchFieldError: IBM_JAVA

问题报错：Exception in thread “main” java.lang.NoSuchFieldError: IBM_JAVA原因：是你的java依赖不完整，你丢失了jar包hadoop-auth-2.6.0.jar或更新的版本。字段IBM_JAVA位于java类PlatformName.class中，该类位于hadoop-auth-2.2.0.jar中的org.apache.hadoop.util包中。解决：重新在pom文件中下载hadoop-auth-2.2.0.jar包...

2020-12-02 11:35:35 1194

原创 Flume拦截器（正则过滤拦截器，使用idea自定义拦截器）

Flume拦截器一.使用正则拦截器（去掉首行）二.自定义拦截器1.创建maven工程2.在idea中自定义编写拦截器3.打成jar包传到$FLUME_HOME/lib 目录下4.编写agent文件5.执行结果一.使用正则拦截器（去掉首行）需求：使用Spooling directory source监督符合格式的文件进行上传（格式：user_年-月-日.csv）;使用正则拦截器去除首行;使用file channel进行缓存；以规定的文件格式（）上传到HDFS上规定文件夹下[root@hadoop

2020-12-01 19:47:38 855

May_J_Oldhu的博客