大数据
木木统
Sharing makes the world better!!!
分享让世界更美好!!!
展开
-
杭州有赞技术团队的技术博客
这个链接是杭州有赞科技有限公司的技术博客,里面都是实际工作中能够用的到的一些技术指导,这些博客也能使得我们可以避免一些实际工作中的坑。https://tech.youzan.com/tag/big-data/...原创 2020-01-06 18:16:55 · 763 阅读 · 0 评论 -
启动linux 集群中大数据组件的流程:zookeeper、hadoop、yarn 、hive、hbase
1 同步时间:ntpdate time1.aliyun.com(前提是在安装linux的时候,要配置time1.aliyun.com)2 启动zookeeper:启动QuorumPeerMain 进程(1)查看zk的状态:./ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start(2)停止zk:./ssh_all...原创 2019-09-25 22:15:35 · 342 阅读 · 0 评论 -
idea运行map Reduce 时报:错误: 找不到或无法加载主类 com.hnxy.bin.JobRunner
问题描述: 使用idea编辑器,使用maven构建hadoop的mapreduce项目,在运行的时候提示报错:错误: 找不到或无法加载主类 com.hnxy.bin.JobRunner错误排查:1 可能是java的环境变量错误解决方案:查看java的环境变量是否 正确2 可能是未能成功编译:解决方案: 菜单---》Build---》Rebuild Prodject...原创 2019-09-25 21:44:50 · 779 阅读 · 0 评论 -
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它。以这样的方式去理解它之后在日后的深入学习中才能够对它有一个更深层次的理解。1. 什么是分布式文件系统 所谓的分布式文件系统,我的个人理解是管理网络中把数据存储在不止一台机器上的系统,这样的存储方式被称为分布式存储。(管理网络中跨多台计...转载 2019-09-22 16:03:21 · 216 阅读 · 0 评论 -
Hadoop之Hive UDAF TopN函数实现
public class GenericUDAFTopNRow extends AbstractGenericUDAFResolver {@Overridepublic GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters) throws SemanticException { if (parameters.length...转载 2019-09-17 21:55:37 · 475 阅读 · 0 评论 -
Hive UDAF开发详解
补充相关博文:https://www.iteye.com/blog/yugouai-1851050https://blog.csdn.net/w124374860/article/details/81021474https://blog.csdn.net/czw698/article/details/38407817(ObjectInspector的作用)https...转载 2019-09-17 21:23:23 · 1516 阅读 · 0 评论 -
Hive 源码解析之 Hive 基本框架和执行入口
原文链接:https://segmentfault.com/a/1190000002766035Hive简介在介绍Hive的框架和执行流程之前,这里首先对Hive进行简要的介绍。Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据抽取,转化,加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了...转载 2019-09-17 19:43:55 · 237 阅读 · 0 评论 -
idea中运行hive时,使用jline接受客户端的输入
前言:不实用,谁没事整个idea跑hive这玩意。在idea上运行hive的时候,需要客户端与运行的Console进行实时交互,此时,需要使用一种java中仿shell终端模拟的工具包,模拟shell终端,以命令行的方式读取输入信息。如下图main方法中的第一行进行设置:控制台的效果如下:关于jline的详细内容,参考以下博客:博客标题:jline初步了解博客链接...原创 2019-09-17 19:17:13 · 590 阅读 · 0 评论 -
java.io.IOException:org.apache.hadoop.fs.ChecksumException: Checksum error 校验和(checksum)出现异常
在查询hive中的数据时,报如下错误:错误原因:从提示用可以看出是:CheckSumException ,即 校验和异常,出现该错误的原因:存储的数据与hadoop系统为该数据生成的校核和数据不一致导致错误,说白了,就是你存储的数据出现问题了,如:人为手动更改了数据,网络不稳定以及硬件损坏等因素导致的。本博客是我自己为了复现这个错误,特地更改了hive上的源数据。如上图,我是通...原创 2019-09-17 18:48:14 · 6272 阅读 · 0 评论 -
hive中查找以及查看自定义以及系统的函数及其使用方法
在hive中,经常需要查询自定义的以及系统的函数使用方法,一般情况下在hive中使用下面三个命令即可:1 查看所有的函数:show functions;2.查看date相关的函数:(模糊查询)show functions like 函数名示例:show functions like '*date*' (模糊查询)3.粗粒度查看函数的使用方法:desc functio...原创 2019-09-16 23:14:55 · 3402 阅读 · 1 评论 -
hive 窗口函数,分析函数的一些理解
版权声明:本文为CSDN博主「白马不是马」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/kuodannie1668/article/details/79757186参考博客:https://blog.csdn.net/kuodannie1668/article/details/79757186(偏...转载 2019-09-16 21:28:12 · 318 阅读 · 0 评论 -
列式存储简介
————————————————版权声明:本文为CSDN博主「铁头乔」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qiaojialin/article/details/81032232业务背景关系表结构是被人们普遍接受的数据模型,通常一行数据由多个属性组成,每个属性是一列。但是磁盘是...转载 2019-09-11 22:22:21 · 222 阅读 · 0 评论 -
hadoop MapReduce的输出压缩算法的设置(四种方法)
MapReduce的过程中,一个job结束之后,会输出处理完毕的数据集,也就是reduce的处理结果。我们可以将这些结果采用指定的压缩算法输出到指定的文件夹中。map端数据的压缩:要求是reduce从map端进行数据拉取的时候,传输速度要快,此时适合选择snappy数据压缩算法。reduce端数据压缩:reduce端数据最终输出到HDFS上进行数据存储,要求是数据的占用空间要小,所以,可以...原创 2019-09-04 22:28:03 · 2691 阅读 · 0 评论 -
Yarn的作业提交流程底层原理精讲【小二讲堂】
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/Mirror_w/article/details/89424314本片博文是小二进行从源码底层所总结的,若有疑问的可以评论席留言!小二讲堂:https://blog.csdn.net/Mirror_w小二MapReduce源码讲解:h...转载 2019-08-31 22:17:35 · 414 阅读 · 0 评论