Hadoop
hellozhxy
这个作者很懒,什么都没留下…
展开
-
Hadoop2.7.6在Windows7单机部署
安装参考:Hadoop2.7.4 在 Windows 10(64位) 详细配置安装参考:Windows7-8-10安装部署hadoop-2.7.51 配置jdk1.8 不要安装在空格的目录中,你会发现hadoop和spark不支持有空格的目录配置2下载hadoop-2.7.63下载https://download.csdn.net/download/hellozhxy/10602...转载 2018-08-14 14:33:52 · 1009 阅读 · 0 评论 -
hadoop2.2支持snappy压缩安装及配置
由于我们的生产环境没有root用户使用权限,且为了不在所有主机上安装一些依赖插件,因此我启用了使用hadoop native本地库,即在core-site.xml中配置了:<property> <name>hadoop.native.lib</name> <value>true</value><...转载 2018-12-03 13:44:30 · 642 阅读 · 0 评论 -
Native snappy library not available: this version of libhadoop was built without snappy support
在使用spark Mllib的时候,训练好的模型save之后,在线service需要load加载该模型,实现线上预测。 实际加载load的时候,抛出异常:Native snappy library not available: this version of libhadoop was built without snappy support 查了下,发现是因为Hado...原创 2018-12-03 13:42:48 · 5159 阅读 · 0 评论 -
Spark加载hadoop配置原理
0x0 背景最近为了将hadoop&hive的五大配置文件,即:core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlhive-site.xml从项目中(classpath)移到项目外(任意位置),研究了spark启动过程的源码,在此记录一下。0x1 Hadoop及Hive获取默认配置过程Hadoop有一个类 C...转载 2018-11-28 20:27:26 · 1109 阅读 · 0 评论 -
通过java api操作hdfs(kerberos认证)
参考代码如下import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.io.Text;import org.apache.had...转载 2018-11-30 11:29:50 · 1697 阅读 · 0 评论 -
java操作hdfs文件、文件夹
工具类HdfsUtils.java,及测试用例代码如下: HdfsUtils.java package com.xy6.demo.utils; import java.io.ByteArrayInputStream; import java.io.IOException; import java.io.InputStream; ...转载 2018-11-30 11:23:28 · 1496 阅读 · 0 评论 -
Java操作HDFS文件
1.读取单个文件 [java] view plain copyDate date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_l...转载 2018-11-29 21:49:12 · 489 阅读 · 0 评论 -
Kerberos认证代码分析Can't get Kerberos realm
1. Can't get Kerberos realm原因分析:原始代码为: 1 2 org.apache.hadoop.security.UserGroupInformation.setConfiguration(conf) sun.security.krb5.Config.refresh() 首先根据传进来的Hadoo...转载 2018-11-29 15:58:36 · 18475 阅读 · 1 评论 -
hdfs客户端实例(kerberos+simple)
1.非安全模式在非安全模式下,访问hdfs文件系统的客户端代码如下:package ntci.hadoop.hdfs.test;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs...转载 2018-11-20 13:02:27 · 743 阅读 · 0 评论 -
Java 读写 hdfs文件或者目录
1.读取单个文件 [java] view plain copyDate date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_l...转载 2018-11-22 13:24:31 · 1835 阅读 · 0 评论 -
HDFS NameNode内存全景
一、概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4...转载 2018-09-28 15:05:19 · 119 阅读 · 0 评论 -
考究Hadoop中split的计算方法
Hadoop中block块大小和split切片大小会影响到MapReduce程序在运行过程中的效率、map的个数。在本文中,以经典入门案例WordCount为例,通过debug的方式跟踪源代码,来分析hadoop中split的计算方法。前期准备wc.txt的准备 单词统计,以空格为分割符对单词进行切割。因此wc.txt中的单词都以空格进行分割 mr核心部分介绍 map 提取每一行,St...转载 2018-09-28 15:05:36 · 628 阅读 · 0 评论 -
MapReduce Job集群提交过程源码跟踪及分析
继上篇文章对MapReduce Job本地提交过程进行分析之后 在本篇文章中,同样将通过debug的方式,对Job作业的集群提交过程进行分析 Job作业集群的提交有别于本地的提交方式,本地的提交采用了LocalJobRunner,而集群提交则采用了YARNRunner 决定使用LocalJobRunner还是YARNRunner取决于配置文件所写的MapReduce程序、debug的操作...转载 2018-09-28 15:05:49 · 388 阅读 · 1 评论 -
MapReduce Job本地提交过程源码跟踪及分析
MapReduce Job作业的提交过程可以分为本地提交模式与集群模式提交,这两种提交模式与org.apache.hadoop.mapred.LocalJobRunner、org.apache.hadoop.mapred.YARNRunner这两个类相关。在本篇文章中,将剖析Job作业本地的提交过程。用到了JVM的远程调试,具体操作请见这篇 “eclipse中远程调试JVM(以启动namenode...转载 2018-09-28 15:05:44 · 422 阅读 · 0 评论 -
Linkedin Camus的使用
Preface在实现Lambda架构的时候,我以Kafka作为系统的输入,同时需要将数据批量从Kafka导入到HDFS存储起来,以备Batch layer批处理计算。而从Kafka到HDFS的数据传输,Linkedin已经有一个开源的项目,即Linkedin Camus。Camus是Kafka到HDFS的管道,它实际上是向Hadoop提交一个作业,并从Kafka获取指定topic的消息,存储...转载 2018-12-07 16:13:04 · 2431 阅读 · 0 评论