hadoop
文章平均质量分 66
羽溪夜
这个作者很懒,什么都没留下…
展开
-
windows下eclipse连接hadoop
首先介绍配置环境linux版本 CentOS release 6.7 64位 一个master,若干slavewindows版本 win7 32位hadoop 2.6.0版本1 安装插件hadoop-eclipse-plugin-2.6.0.jar,下载后放到eclipse/plugins,重启eclipse2 在windows下解压hadoop-2.6.0原创 2016-07-26 12:18:12 · 607 阅读 · 0 评论 -
hadoop configuration
参考Hadoop Configuration 源码详解使用Hadoop Configuration一些需要注意的细节hadoop3.0 api介绍使用Configuration类的对象去初始化一个任务,在整个任务执行过程中,作为参数的携带者,任务执行过程中所需要的所有参数都从该对象中获取,是一个配置文件管理类。设置属性方式hadoop jar $jar \ ${classna...转载 2019-03-29 13:32:11 · 759 阅读 · 0 评论 -
Mapper中获取分片信息
场景输入路径中含有重要信息,需要在map的时候进行处理。场合只有一个Mapper,每个mapper只处理一个输入文件protected void setup(Context context) throws IOException, InterruptedException { Path path = ((FileSplit) context.getInputSplit()).get...原创 2019-03-25 14:18:55 · 241 阅读 · 0 评论 -
mac编译hadoop,spark
hadoop编译前提安装java,maven,jdk,ProtocolBuffer,cmake,openssl从git上clone hadoop 源码protocolbuffer安装2.5.0protocolbuffer下载./configure makesudo make installprotoc —version #测试卸载在终端执行which protoc注:...原创 2018-10-17 14:44:44 · 316 阅读 · 0 评论 -
yarn下的mapreduce内存问题
参考ERROR:is running beyond physical memory limits. Tuning yarnYarn下Mapreduce的内存参数理解Yarn下Mapreduce的内存参数理解&xml参数配置前因使用Hadoop的streming.jar遇到问题问题1:18/10/13 19:40:56 INFO input.FileInputFormat: ...转载 2018-10-15 16:16:32 · 777 阅读 · 0 评论 -
parquet
参考内部know Parquet vs ORC大数据开源列式存储引擎Parquet和ORC新型列式存储格式 Parquet 详解读写parquet格式文件的几种方式Parquet file optional field does not existparquet列存列存使用场景:数据列很多,且每次操作仅针对若干列的情景parquet数据存储schema描述存储结构有group...转载 2018-10-11 17:19:19 · 949 阅读 · 0 评论 -
MapReduce读文件
参考读文件在Driver中读本地在map或reduce中读hdfsStreaming中的-file原创 2018-08-09 16:45:30 · 4202 阅读 · 0 评论 -
Mapreduce多种输入
是mapreduce中的一种类型,记录下主要使用了MultipleInputs类,允许对不同的输入路径指定InputFormat和Mapper, 对reduce并没有什么影响//job.setMapperClass(Mapper.class); 就不要了MultipleInputs.addInputPath(job, new Path(input1), TextInputForma...原创 2018-07-19 16:27:39 · 161 阅读 · 0 评论 -
MapReduce学习写测试
参考Effective Testing Strategies for MapReduce Applications:https://stackoverflow.com/questions/27136752/powermock-throws-nosuchmethoderror-setmockname PowerMock throws NoSuchMethodError (setMockName...转载 2018-07-06 18:34:45 · 557 阅读 · 0 评论 -
Hbase使用简要分析
参考 https://blog.csdn.net/u014419512/article/details/27966957 https://www.jianshu.com/p/0f9578df7fbc https://www.cnblogs.com/raphael5200/p/5229164.html https://songlee24.github.io/2015/07/24/hbase...转载 2018-05-29 16:53:05 · 452 阅读 · 0 评论 -
eclipse下新建hadoop项目
此次介绍有关在eclipse当中进行文件操作及wordcount的运行按照我写的顺序进行讲述新建Map/Reduce Project项目WordCountDemo新建类WordCountDemo,包为org.hadoop.examples将hadoop源码中的wordcount粘贴过来设置arguments运行,结果出现output文件已存在原创 2016-07-26 13:02:34 · 1505 阅读 · 0 评论 -
在MapReduce项目中添加spark job
直接在java并行的目录下创建scala文件,并标注为源代码目录,在test中也添加scala目录,然后添加spark相关依赖即可。<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --><dependency> <groupId>org.apache.spark&...转载 2019-05-17 11:52:44 · 224 阅读 · 0 评论