Hadoop
sun_0128
这个作者很懒,什么都没留下…
展开
-
hive使用遇到的一些需求解决
文章目录1.将某一列整数数字5展开成5个12.将所有标点符号替换成空字符(输入时候可能有些一场符号需要清洗)->正则表达式`\\pP\\pS`1.将某一列整数数字5展开成5个1select * from (select explode(split(repeat(1,5),"")) as a) t1 where t1.a!="";效果如下:hive (default)> select * from (select explode(split(repeat(1,5),"")) as a) t原创 2020-11-25 21:02:01 · 287 阅读 · 0 评论 -
hive 分页实现
1.支持limit n,m语法的hive版本#!/bin/bashcnt=$(set hive.cli.print.header=false;hive -e "select count(*) from exam.userbehavior;")echo "总记录数: $cnt 条"#每页10条pageSize=10pageNum=`expr $cnt + $pageSize - 1 / $pageSize`echo "总页数: $pageNum 页"for((a=0;a<=$pa原创 2020-11-23 21:16:37 · 3089 阅读 · 0 评论 -
记录kettle无法连接hive表异常
问题描述:使用kettle连接hive2服务时遇到异常错误连接数据库 [hive_default] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseError connecting to database: (using class org.apache.hive.jdbc.HiveDriver)Illegal Hadoo原创 2020-09-01 07:14:46 · 1144 阅读 · 0 评论 -
hadoop面试题
一、不定项选择题(1-12题每题2分,13题3分,共27分)下面那个程序负责HDFS数据存储(C)?A NameNodeB JobtrackerC DatanodeD secondaryNameNodeE tasktracker关于SecondaryNameNode哪项是正确的(C)?A 它是NameNode的热备。B 它对内存没有要求。C 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。D SecondaryNameNode应与NameNode部署到原创 2020-07-27 12:28:05 · 6307 阅读 · 0 评论 -
Sqoop介绍及数据迁移
一.Sqoop概述Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HDFS、Hive、HBase从HDFS导出数据到RDBMS使用MapReduce导入和导出数据,提供并行操作和容错目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等二.Sqoop操作1.从RDB导入数据到HDFSsqoop import \--connect jdbc:mysql://localhost:3306/retail_db \--driver com原创 2020-07-22 12:35:11 · 7306 阅读 · 1 评论 -
HBase进阶
文章目录一.HBase REST API二.Phoenix概述三.Hive与HBase集成使用场景1.Hive与HBase集成原理三.Hbase常用命令1.名称空间(NameSpace)2.安全权限(Security with GRANT)3.权限管理命令(revoke & user_permission)四.Region管理五.HBase Compaction - LSM一.HBase REST API使用REST API操作HBase1.start/stop rest service原创 2020-07-21 12:18:40 · 457 阅读 · 0 评论 -
NoSQL综述及HBase基础
文章目录一.NoSQL1.什么是NoSQL2.NoSQL和关系型数据库对比如下表3.NoSQL和BI、大数据的关系二.Hbase1.概述2.HBase发展历史3.应用场景3.1.增量数据-时间序列数据3.2.信息交换-消息传递3.3.内容服务-Web后端应用程序3.4.HBase应用场景示例4.Apache HBase生态圈5.HBase分布式环境部署见如下链接6.HBase架构7.HBase Shell8.使用Java API操作HBase一.NoSQL1.什么是NoSQLNoSQL:not onl原创 2020-07-20 12:15:46 · 15392 阅读 · 0 评论 -
使用zeppelin分析电子商务消费行为
文章目录一.任务描述二.问题分析问题分析1:Customer表问题分析2:Transaction表问题分析3:Store表问题分析1:Review表三.连接zeppelin**使用刚才创建的模板**1.从windows上传到linux 的/tmp/data目录下2.Understand the Data3. Upload the file to HDFS4.建表查表5.数据清洗6.Customer分析7.Transaction分析8.Store分析9.Review分析一.任务描述需求概述对某零售企业原创 2020-07-16 19:28:57 · 13801 阅读 · 0 评论 -
hive经典习题50题
-- 建库create database if not exists hql50;use hql50;-- 建表-- 课程表create table if not exists course(course_id int,course_name string,teacher_id int);-- 分数表create table if not exists score(student_id int,course_id int,score int);-- 学生表create table if n原创 2020-07-15 11:02:12 · 16155 阅读 · 1 评论 -
Hive函数及性能优化
一.Hive函数分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类内置函数自定义函数1)UDF:自定义标准函数2)UDAF:自定义聚合函数3)UDTF:自定义表生成函数内置函数Hive提供大量内置函数供开发者使用标准函数1)字符函数2)类型转换函数3)数学函数4)日期函数5)集合函数6)条件函数聚合函数表生成函数查看函数用法的原创 2020-07-14 10:27:59 · 1155 阅读 · 0 评论 -
hive函数大全
为了方便开发人员使用函数,Hive提供了大量的内置函数,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,原创 2020-07-13 19:31:03 · 11157 阅读 · 2 评论 -
hive自定义函数
文章目录一.hive自定义函数介绍二.hive自定义函数开发1.需求:开发自定义函数,使得在指定字段前加上"Hello: "字样2.hive中UDF函数开发步骤3.功能实现一.hive自定义函数介绍当hive提供的内置函数无法满足业务需求时,可以考虑使用用户自定义函数(User-Defined Function,UDF)hive中常见的UDF有如下3中1)UDF一条记录使用函数后输出还是一条记录,如:upper/substr2)UDAS(User-Defined Aggregation Fun原创 2020-07-12 17:08:05 · 2982 阅读 · 0 评论 -
hive高级查询(二)
Hive聚合运算 - GROUP BYGROUP BY用于分组Hive基本内置聚合函数与GROUP BY一起使用如果没有指定GROUP BY子句,则默认聚合整个表除聚合函数外,所选的其他列也必须包含在GROUP BY中GROUP BY支持使用CASE WHEN或表达式select category, max(offervalue) from offers group by category;-- group by使用表达式select if(category > 4000, 'GOOD原创 2020-07-11 10:02:46 · 6169 阅读 · 0 评论 -
hive高级查询(一)
文章目录一.Hive查询 - SELECT基础1.查询语法解析2.练习1:SELECT及关联查询二. Hive JOIN – MAPJOIN三.Hive集合操作(UNION)四.装载数据1.INSERT表插入数据2. Hive数据插入文件3. Hive数据交换 - IMPORT/EXPORT五.hive数据排序1.order by2.SORT BY/DISTRIBUTE BY3. CLUSTER BY一.Hive查询 - SELECT基础1.查询语法解析SELECT用于映射符合指定查询条件的行Hiv原创 2020-07-09 19:45:51 · 5523 阅读 · 0 评论 -
hive基础
什么是Hive?基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)Hive让更多的人使用HadoopHive成为Apache顶级项目Hive始于2007年的Facebook官网:hive.apache.orgHive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数、格式成熟的JDBC和ODBC原创 2020-07-08 20:07:03 · 3231 阅读 · 0 评论 -
记录hive无法创建表的问题
一.报错异常如下:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column 'PARAM_VALUE' (max = 21845); use BLOB or TEXT i原创 2020-07-07 22:54:06 · 2969 阅读 · 0 评论 -
使用shell脚本安装hadoop高可用集群
文章目录一.创建一台虚拟机二.复制两台虚拟机三.启动集群四.脚本内容如下1.jdk2.hadoop和zookeeper集群划分192.168.56.120 hadoop01192.168.56.121 hadoop02192.168.56.122 hadoop03QuorumPeerMainQuorumPeerMainQuorumPeerMainJournalNodeJournalNodeJournalNodeNameNodeNameNodeNodeMana原创 2020-07-07 12:32:57 · 14275 阅读 · 2 评论 -
hadoop高可用集群的搭建
文章目录一.HDFS-HA 集群配置1.1 配置 HDFS-HA 集群1.2 启动 HDFS-HA 集群1.3 配置 HDFS-HA 自动故障转移二、YARN-HA 配置2.1 配置 YARN-HA 集群一.HDFS-HA 集群配置1.1 配置 HDFS-HA 集群1.HDFS 高可用集群规划,请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成。hadoop集群搭建hadoop110hadoop111JournalNodeJournalNo原创 2020-07-06 16:03:03 · 9921 阅读 · 0 评论 -
分布式应用协调服务ZooKeeper
一.ZooKeeper简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目Zookeeper=文件系统+通知机制Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式二. ZooKeeper数据结构znodeZoo原创 2020-07-06 13:01:22 · 2203 阅读 · 0 评论 -
详解hdfs读写文件流程
一.hdfs写数据流程hdfs dfs -put 要上传的文件的路径 hdfs路径1.客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。2.NameNode 返回是否可以上传。不能上传的话会抛出异常。3.确定可以上传,客户端请求第一个 block 上传到哪几个 datanode 服务器上。4.NameNode 返回 3 个 datanode 节点,假定分别为 dn1、dn2、dn3。5.原创 2020-07-04 17:46:44 · 7308 阅读 · 1 评论 -
详解MapReduce过程
一.MapReduce工作流程图片如下二.工作流程机制详解1.TextInputFormat读取文件详细解析追踪源代码后,我们会发现TextInputFormat这个类继承自FileInputFormat,而FileInputFormat这个类继承自InputFormat查看InputFormat的源码注释我们了解到这个类的作用为:1.验证作业的输入规格2.将输入文件分成逻辑块(默认大小等于block的大小(通常为128M)),然后将每个逻辑文件分配给一个单独的Mapper3.提供Reco原创 2020-07-04 10:17:35 · 7893 阅读 · 2 评论 -
分布式资源调度框架YARN
文章目录一.YARN产生背景二.YARN(Yet Another Resource Negotiator)概述三.YARN的基本架构核心组件(一)YARN架构(二) 核心组件1.ResouceManager2.YARN架构核心组件-NodeManager3. YARN架构核心组件-ApplicationMaster4. YARN架构核心组件-Container5. YARN的工作机制如下图:(三) YARN的资源调度器(四) YARN常用命令一.YARN产生背景Hadoop1.x版本最大的问题是资源问题原创 2020-07-03 13:16:21 · 2314 阅读 · 4 评论 -
使用MapReduce实现join操作
文章目录一.概述二.需求三.map+reduce实现join四.MapReduce Map端 join实现原理(没有reduce处理)一.概述熟悉SQL的读者都知道,使用SQL语法实现join是很简单的,只需要一条SQL语句即可,但是在大数据场景下使用MapReduce编程模型实现join还是比较繁琐的在实际生产中我们可以借助Hive,Spark SQL 等框架来实现join,但是对于join的实现原理我们需要掌握,这对于理解join的底层实现很有帮助,本文介绍如何使用MapReduce API 来实现原创 2020-07-02 13:15:22 · 1696 阅读 · 0 评论 -
MapReduce实现WordCount词频统计
文章目录--原创 2020-07-01 14:02:59 · 5065 阅读 · 0 评论 -
MapReduce原理及编程
文章目录一.关于MapReduce(一)什么是MapReduce?(二) MapReduce的设计思想(三) MapReduce特点一.关于MapReduce(一)什么是MapReduce?MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google,他是一个编程模型,用于大数据量的计算适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分(二) MapReduce的设计思想分而治之原创 2020-07-01 13:19:22 · 1103 阅读 · 0 评论 -
Hadoop的序列化机制
文章目录一.什么是序列化和反序列化一.什么是序列化和反序列化序列化:将对象转化为字节流,以便在网络上传输或者写在磁盘磁盘上进行永久存储反序列化:将字节流转回成对象序列化在分布式数据处理的两个领域经常出现: 进程间通信和永久储存Hadoop中多个节点进程间通信是通过远程过程调用(Remote Procedure Call,RPC) 实现的...原创 2020-07-01 12:22:18 · 893 阅读 · 0 评论 -
使用Java API 访问HDFS上的数据
文章目录一.概述二.搭建环境一.概述除了可以用HDFS shell的方式 来访问HDFS上的数据,Hadoop还提供了以Java API的方式来操作HDFS上的数据.由于我们实际开发的大数据应用都是以代码的方式提交的,所以在代码中使用API的方式来操作HDFS数据必须掌握二.搭建环境1.我们使用Maven来构建Java程序,所以需要添加maven的依赖包,在pom.xml文件中的<dependencies>标签下添加如下代码:<dependency> &原创 2020-06-30 09:57:59 · 3402 阅读 · 0 评论 -
大数据概况和Hadoop生态系统
文章目录一.大数据概况二.Hadoop介绍1.Hadoop概念2.使用Hadoop原因3.Hdoop与关系型数据库对比4.Hadoop生态圈5.Zookeeper6.Hadoop架构一.大数据概况1.什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。2.大数据的特征1)4V特征Volume(大数据量):90% 的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高Variety(多样化):数据种类和来源多样化结构化数据、半结构化原创 2020-06-29 19:45:36 · 2976 阅读 · 0 评论 -
hadoop组件之hive环境搭建
文章目录一.什么是Hive?二.Hive与传统数据库比对三.Hive部署1.下载与安装2.Hive需要提前装好MySQL3.Hive配置文件修改一.什么是Hive?Hive是建立在Hadoop之上的一个工具.能够帮助用户屏蔽掉复杂的MapReduce逻辑,只需要用户使用简单的SQL语句即可完成一定的查询功能.Hive利用HDFS存储数据,利用MapReduce查询数据二.Hive与传统数据库比对HiveRDMS查询语言HQLSQL数据存储HDFSRaw De原创 2020-06-27 19:43:57 · 714 阅读 · 0 评论 -
hadoop组件之hbase环境搭建
文章目录一.安装HBase之前,需要具备如下三个前置条件二.安装HBase与配置环境变量一.安装HBase之前,需要具备如下三个前置条件1.HBASE的运行需要JDKjdk安装2.HBase的底层存储依赖于HDFS,需要安装hadoop环境Hadoop与集群环境搭建3.HBase依赖于ZooKeeper来做分布式协调工作,所以需要安装Zookeeper的环境本文使用自己搭建的环境zookeeper搭建环境与时间同步二.安装HBase与配置环境变量1.下载安装包:2.拖入原创 2020-06-27 14:10:52 · 818 阅读 · 0 评论 -
zookeeper的配置和zookeeper集群的时间同步设置
文章目录原创 2020-06-26 18:56:36 · 1656 阅读 · 0 评论 -
hadoop和hadoop集群在CentOS7系统下安装和配置
mapreduce.framework.name yarnhttps://www.cnblogs.com/zlslch/p/6418248.html原创 2020-06-24 10:39:48 · 7021 阅读 · 0 评论