关闭

spark Intellij IDEA及eclipse开发环境搭建

Apache Spark探秘:利用Intellij IDEA构建开发环境 http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/ 利用Eclipse构建Spark集成开发环境 http://dongxicheng.org/framework-on-yarn/apache-spark-inte...
阅读(439) 评论(0)

linux虚拟机网卡启动失败问题处理

1  通过ifconfig查询虚拟机的ip地址没有了 2 重启网卡报以下错误 connecton activation failed:Device not managed by NetwordManager or unavailable 3 查看NetworkManager服务是否启动 ps aux |grep NetworkManager 4 启动该网络管理程序 servic...
阅读(984) 评论(0)

CDH 的Cloudera Manager免费与收费版的对比表

CDH 特性 免费版 付费版 Deployment, Configuration & Management 系统管理 Automated Deployment & Hadoop Readiness Checks 自动化部署及快速检查 • • Install the complete CDH stack in minute...
阅读(3359) 评论(0)

修改map分片个数

方式一: TextInputFormat.setMaxInputSplitsize(job,1024*1024*10); TextInputFormat.setMinInputSplitsize(job,1024*1024*50); 方式二: 在configration内设置以下参数 mapreduce.input.fileinputformat.split.minsize=...
阅读(527) 评论(0)

zookeeper 伪分布式安装

1 下载zookeeper安装包    下载地址 http://apache.fayea.com/zookeeper/     我下载的是zookeeper-3.4.6.tar.gz 2 解压缩   将zookeeper-3.4.6.tar.gz拷贝到/usr/local目录下   执行命令 tar -zxvf zookeeper-3.4.6.tar.gz   解压后的目录为...
阅读(970) 评论(0)

海量Web日志分析 用Hadoop提取KPI统计指标

海量Web日志分析 用Hadoop提取KPI统计指标 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flum...
阅读(648) 评论(0)

如何使用Hadoop的JobControl

转自:http://qindongliang.iteye.com/blog/2064281 使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是词频统计,第两个是排序求TopN,这显然是需要两个MapReduce作...
阅读(1411) 评论(0)

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持 下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。 通常情况下,想在CPU和IO之间取...
阅读(613) 评论(0)

Hadoop参数汇总

Hadoop参数汇总 @(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器 JVM参数 JVM方面的优化项Hadoop Performance Tuning Guide Hadoo...
阅读(464) 评论(0)

hadoop 配置项的调优

dfs.block.size   决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.speculative.execution=true  mapred.reduce.tasks.speculative.execution=true 这是两个推测式执行的配置项,默认是true...
阅读(320) 评论(0)

使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录

ssh-keygen  产生公钥与私钥对. ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ssh , 和 ~/.ssh/authorized_keys的权利 第一步:在本地机器上使用ssh-keygen产生公钥私钥对 jsmith@local-host$ [Not...
阅读(659) 评论(0)

HDFS 的Trash回收站功能的配置、使用

文件的删除和恢复         和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就是在...
阅读(787) 评论(0)

Hadoop生成HFile直接入库HBase心得

转载请标明出处:http://blackwing.iteye.com/blog/1991380  hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdf...
阅读(1877) 评论(0)

hadoop 之DefaultStringifier

今天在读hadoop源码时发现DefaultStringifier这个类很有意思,主要是用来从configuration对象中get或set key、value键值对的时候使用。 具体原因不是很清楚,在网上google了下:  写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几...
阅读(806) 评论(0)

Hadoop中的压缩Codec

作为输入             当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。 作为输出             当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapred.output.compression.codec为想要使用的codec的类名称,当...
阅读(637) 评论(0)

Hadoop 2.x的DistributedCache无法工作的问题

转自:http://www.codelast.com/?p=8131 现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。 下面就详细地描述一下新旧API的用法区别以及解决办法。 『1』旧API 将HDFS文件添加到distributed cache中: ...
阅读(896) 评论(1)

ZeroCopyLiteralByteString cannot access superclass

问题描述 在HBase上运行MapReduce作业时,报如下异常:IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString 使用HBase环境如下:CDH5.0.1, HB...
阅读(1084) 评论(0)

Hadoop Writable机制

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第3章序列化与压缩,本章涉及了org.apache.hadoop.io包下最重要的两部分内容:序列化和压缩。本节为大家介绍Hadoop Writable机制。 AD:WOT2015 互联网运维与开发者大会 热销抢票 3.1.4 Hadoop Writable机制 为了支...
阅读(371) 评论(0)

Hadoop中Writable和WritableComparable区别

Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1> Writable: void write(DataOutput out) throws IOException;  void readFields(DataInput in) throws IOException;  也就是读数据和...
阅读(369) 评论(0)

Hadoop源码导入Eclipse

需要进一步学习hadoop、需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中,简单总结一下,具体步骤如下: 首先确保已经安装了git、maven3、protobuf2.5、如果没有安装需要提前安装一下 1、下载hadoop源码 git clone git://git.apache.org/hadoop-common.git 2、进入hadoop-com...
阅读(1119) 评论(0)
33条 共2页1 2 下一页 尾页
    个人资料
    • 访问:1173791次
    • 积分:9144
    • 等级:
    • 排名:第2130名
    • 原创:120篇
    • 转载:222篇
    • 译文:1篇
    • 评论:146条
    最新评论