Hadoop
hochoy
这个作者很懒,什么都没留下…
展开
-
拉链表简单实现
表说明:ods_product_2 :产品 ods 表 ,dw_product_2 :产品 dw 表表初始化-- databasecreate database if not exists demo ;use demo;-- create ods tablecreate table if not exists `demo`.`ods_product_2`(goods_id string comment '商品编号',goods_status string comment '商原创 2021-05-30 17:25:41 · 419 阅读 · 0 评论 -
HBase
1.HBase 概述1.1 HBase 数据模型In HBase, data is stored in tables, which have rows and columns. This is a terminology overlap with relational databases (RDBMSs), but this is not a helpful analogy. Instead, it can be helpful to think of an HBase table as a mult原创 2020-06-19 17:44:56 · 720 阅读 · 0 评论 -
Spark2.10中使用累加器、注意点以及实现自定义累加器
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。 val spark...转载 2018-07-15 22:38:18 · 214 阅读 · 0 评论 -
hbase shell启动报错(KeeperException$ConnectionLossException)
hbase shell启动报错问题:执行hbase shell的时候报错org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/hbaseid,提示连接不上zookeeper排查思路:查看hbase-site.xml配置文件<proper...原创 2018-06-12 14:14:54 · 2552 阅读 · 0 评论 -
Java 实现HDFS文件上传
HDFS上传文件大致分为三种:1)直接调用API2)使用webhdfs3)httpfs以下对前两种进行简要说明1)直接调用API(直接上代码)public void hdfsUpload(String srcPath) throws IOException,URISyntaxException { Configuration conf = new Configuration(); ...原创 2018-05-24 15:57:57 · 7392 阅读 · 2 评论 -
Hadoop----HA
HA基础 HA,High Available,即高可用(7*24小时不中断服务) HDFS的管理是通过namenode来实现的,数据存储在Datanode上,而在Hadoop中namenode是存在SPOF(single point of failure),而Datanode失败,Hadoop会自动的重启一个复制失败的备份数据,所以datanode不存在HA,Had...原创 2018-06-11 23:49:25 · 308 阅读 · 0 评论 -
MapReduce 之 排序
排序是MapReduce核心技术,尽管实际应用中可能不需要对数据进行排序,但是MapReduce过程本身就含有排序的概念。MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列。 1)排序的分类:(1)部分排序:MapReduce中默认的排序方式,默认输出是按照键的自...原创 2018-05-05 09:15:21 · 1786 阅读 · 0 评论 -
MR 之 Combiner
MR 之 Combiner背景: MR的map将数据处理成一个<key,value>键值对,在网络节点间进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)思考: 如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大...原创 2018-03-21 21:34:27 · 837 阅读 · 0 评论 -
MapReduce Input Split(输入分/切片)详解
MapReduce Input Split(输入分/切片)详解来源:https://blog.csdn.net/Dr_Guo/article/details/51150278看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。先看一下这个图输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input ...转载 2018-03-25 10:25:14 · 986 阅读 · 0 评论 -
MR 之 计数器
MR 之 计数器首先我们看一个MapReduce程序的其中一段log,由此log中我们对MR的计数器的分析和学习(以下log中注释是对其中涉及计数器的说明)。16/03/22 14:25:30 INFO mapreduce.Job: Counters: 49 // 表示本次job共49个计数器 File System Counters // 文件系统计数器 FILE: Numbe...原创 2018-03-24 21:11:19 · 1146 阅读 · 0 评论