Hadoop
BackToMeNow
时间记录在2017-01-20............
展开
-
HDFS JAVA客户端的权限错误:Permission denied
错误:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode=“hadoop”: hadoop:supergroup:rwxr-x...原创 2019-10-23 16:12:15 · 400 阅读 · 0 评论 -
在Windows 平台下 执行MR任务报错/bin/bash: 第 0 行:fg: 无任务控制
Failing this attempt.Diagnostics: Exception from container-launch.Container id: container_1571811640353_0010_02_000001Exit code: 1Exception message: /bin/bash: 第 0 行:fg: 无任务控制Stack trace: ExitCod...原创 2019-10-23 16:01:56 · 2036 阅读 · 0 评论 -
HDFS学习总结
1. 什么是HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流...原创 2019-09-01 15:15:54 · 256 阅读 · 0 评论 -
HDFS补充点知识
一、HDFS分块抽象的好处1 文件大小可以大于任意一个磁盘的容量,块并不需要存储在同一个磁盘上2 抽象块作为存储单元,简化存储子系统的设计datanode将块作为处理对象,能存储多少块也能计算出namenode管理元数据3 数据备份提高容错能力和可用性HDFS块为什么这么大?最小化寻址开销块足够大时,磁盘传输速率会远远大于寻址时间,则传输时间更依赖于磁盘传输速率二、 ...原创 2019-09-03 13:47:39 · 191 阅读 · 0 评论 -
YARN三种调度方式
FIFOCapacityFair原创 2019-09-06 19:33:56 · 7067 阅读 · 0 评论 -
MapReduce的基础案例(一)WordCount,词频统计
WordCount原创 2019-09-06 19:55:27 · 1294 阅读 · 0 评论 -
MR基础案例(二)倒排索引
文本文档三个文件:index.html,hadoop.html,spark.html每个文件里有一些单词index.html : hadoop hadoop hadoop hadoop index bigdatahadoop.html : hadoop hadoop is nice nice best spark.html : spark is best best best 结果集...原创 2019-09-06 20:17:04 · 450 阅读 · 0 评论 -
MR基础案例(三)去重
利用shuffle,整合相同的key数据:北京-天津 2019-09-03北京-天津 2019-09-03北京-烟台 2019-09-04北京-哈尔滨 2019-09-03北京-成都 2019-09-03北京-成都 2019-09-03北京-三亚 2019-09-04结果集:北京-天津 2019-09-03北京-烟台 2019-09-04北京-哈尔滨 2019-09-03...原创 2019-09-06 20:20:14 · 649 阅读 · 0 评论 -
MR基础案例(四)二次排序
二次排序20 2150 5150 5350 5250 5460 5160 5360 5260 5660 5770 5860 6170 5470 5570 5670 5770 58结果:20 2150 5150 5250 5350 5460 5160 5260 53...原创 2019-09-06 20:31:51 · 228 阅读 · 0 评论 -
MR基础案例(五)分组最大值
在上一次二次排序的基础上,求每组的最大值20 21//取50 5150 5250 5350 54//取60 5160 5260 5360 5660 5760 61//取70 5470 5570 5670 577...原创 2019-09-06 20:41:23 · 256 阅读 · 0 评论 -
MR基础案例(六)TOP N
任务需求需要求出wordcount的前3名 的数据TopN.javapackage MR;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lo...原创 2019-09-06 20:47:14 · 543 阅读 · 0 评论 -
MR MapSideJoin & ReduceSideJoin
Map Side Joinpackage MR;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org...原创 2019-09-06 20:52:16 · 203 阅读 · 0 评论 -
MR整合MongoDB
注意重写连接方式原创 2019-09-06 21:08:54 · 231 阅读 · 0 评论 -
MapReduce的小作业方式以及聚合日志
uber模式:允许小作业按序列在单个jvm中运行。<!--默认设置-->mapreduce.job.ubertask.enable=false;mapreduce.job.ubertask.maxmaps=9;mapreduce.job.ubertask.maxreduces=1;mapreduce.job.ubertask.maxbytes="";在mapred-si...原创 2019-09-06 21:12:55 · 170 阅读 · 0 评论 -
MySQL整合MR时,无法设置分片大小
在本地运行模式下,分片大小的设置是被忽略的,永远只有一个分片,这是一个特性原创 2019-09-06 21:14:42 · 138 阅读 · 0 评论 -
Centos7下,hadoop2.8.5配合hive2.3.6 顺利兼容
推荐链接https://blog.csdn.net/qq_38924171/article/details/100186327如果出现,执行SQL语句失败,请在hive-site.xml中更改<property> <name>datanucleus.schema.autoCreateAll</name> <value>true&l...原创 2019-09-08 16:10:45 · 890 阅读 · 0 评论 -
Zookeeper 23道经典面试题
1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。客户端的读请求可以被集群中的任意一台机器处理,如果读请求在节点上注册了监听器,这个监听器也是由所连接的zooke...转载 2019-09-03 13:24:53 · 910 阅读 · 0 评论 -
MapReduce与Yarn的联系,Yarn又是个啥?
Yarn是个啥原创 2019-09-06 19:29:04 · 729 阅读 · 0 评论 -
初识MapReduce之这是个啥?
MapReduce是什么呢原创 2019-09-06 19:14:37 · 151 阅读 · 0 评论