spark Intellij IDEA及eclipse开发环境搭建

Apache Spark探秘:利用Intellij IDEA构建开发环境 http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/ 利用Eclipse构建Spark集成开发环境 http://...

2016-10-20 10:11:53

阅读数:581

评论数:0

linux虚拟机网卡启动失败问题处理

1  通过ifconfig查询虚拟机的ip地址没有了 2 重启网卡报以下错误 connecton activation failed:Device not managed by NetwordManager or unavailable 3 查看NetworkManager服务是否启动 ...

2015-11-22 10:49:54

阅读数:2212

评论数:0

CDH 的Cloudera Manager免费与收费版的对比表

CDH 特性 免费版 付费版 Deployment, Configuration & Management 系统管理 Automated Deployment & Hadoop Readiness Checks 自动化部署及快速检...

2015-11-08 18:06:15

阅读数:3626

评论数:0

修改map分片个数

方式一: TextInputFormat.setMaxInputSplitsize(job,1024*1024*10); TextInputFormat.setMinInputSplitsize(job,1024*1024*50); 方式二: 在configration内设置以...

2015-09-08 15:09:52

阅读数:750

评论数:0

zookeeper 伪分布式安装

1 下载zookeeper安装包    下载地址 http://apache.fayea.com/zookeeper/     我下载的是zookeeper-3.4.6.tar.gz 2 解压缩   将zookeeper-3.4.6.tar.gz拷贝到/usr/local目录下   执行命令 ...

2015-07-15 01:16:07

阅读数:1171

评论数:0

海量Web日志分析 用Hadoop提取KPI统计指标

海量Web日志分析 用Hadoop提取KPI统计指标 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,...

2015-07-07 00:18:34

阅读数:734

评论数:0

如何使用Hadoop的JobControl

转自:http://qindongliang.iteye.com/blog/2064281 使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其...

2015-06-14 15:18:07

阅读数:1823

评论数:0

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持 下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snap...

2015-06-02 00:41:40

阅读数:666

评论数:0

Hadoop参数汇总

Hadoop参数汇总 @(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器 JVM参数 ...

2015-05-24 01:49:27

阅读数:514

评论数:0

hadoop 配置项的调优

dfs.block.size   决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.speculative.execution=true  mapred.reduce.task...

2015-05-22 00:47:36

阅读数:358

评论数:0

使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录

ssh-keygen  产生公钥与私钥对. ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ssh , 和 ~/.ssh/authorized_keys的权利 第一步:在本地机器...

2015-05-19 23:03:19

阅读数:750

评论数:0

HDFS 的Trash回收站功能的配置、使用

文件的删除和恢复         和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自...

2015-05-17 22:32:18

阅读数:958

评论数:0

Hadoop生成HFile直接入库HBase心得

转载请标明出处:http://blackwing.iteye.com/blog/1991380  hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.ma...

2015-05-10 13:42:10

阅读数:3099

评论数:0

hadoop 之DefaultStringifier

今天在读hadoop源码时发现DefaultStringifier这个类很有意思,主要是用来从configuration对象中get或set key、value键值对的时候使用。 具体原因不是很清楚,在网上google了下:  写MapReduce程序通常要传递各种各样的参数,...

2015-05-10 13:38:10

阅读数:942

评论数:0

Hadoop中的压缩Codec

作为输入             当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。 作为输出             当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为tr...

2015-05-07 01:35:54

阅读数:845

评论数:0

Hadoop 2.x的DistributedCache无法工作的问题

转自:http://www.codelast.com/?p=8131 现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。 下面就详细地描述一下新旧API的用法区别以及解决办法...

2015-05-05 01:20:53

阅读数:1249

评论数:1

ZeroCopyLiteralByteString cannot access superclass

问题描述 在HBase上运行MapReduce作业时,报如下异常:IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.proto...

2015-04-23 15:08:07

阅读数:1335

评论数:0

Hadoop Writable机制

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第3章序列化与压缩,本章涉及了org.apache.hadoop.io包下最重要的两部分内容:序列化和压缩。本节为大家介绍Hadoop Writable机制。 AD:WOT2015 互联网运维与开发者大会...

2015-04-19 22:59:42

阅读数:403

评论数:0

Hadoop中Writable和WritableComparable区别

Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1> Writable: void write(DataOutput out) throws IOException;  void read...

2015-04-19 22:26:48

阅读数:407

评论数:0

Hadoop源码导入Eclipse

需要进一步学习hadoop、需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中,简单总结一下,具体步骤如下: 首先确保已经安装了git、maven3、protobuf2.5、如果没有安装需要提前安装一下 1、下载hadoop源码 git clone git:/...

2015-04-19 13:37:12

阅读数:1329

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭