- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 优化小计
1. 网络带宽Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部,解决了这个问题。2. 系统参数对ulimit -c的修改也是官方文档建议的修改,在集群只有10台服务器时,并没有遇到问题。随着机器增
2015-05-10 17:17:38 438
原创 hadoop优化调整
io.file.buffer.size hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以设置为64KB(65536byte
2015-05-10 16:43:20 1851
原创 vi与vim区别
看到同事用vim,菜鸟的我,今天搜了下,vi与vim的区别,整理如下它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面:1、多级撤消我们知道在vi里,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2、易用性vi只能运行于unix中,而vim不仅可以运行于unix,windows
2013-09-15 17:08:50 629
原创 shell中变量自增的实现方法
bash中,目前有五种方法:1. i=`expr $i + 1`;2. let i+=1;3. ((i++));4. i=$[$i+1];5. i=$(( $i + 1 ))另外,对于固定次数的循环,可以通过seq命令来实现,就不需要变量的自增了;实例如下:#!/bin/bashfor j in $(seq 1 5)do ech
2013-09-10 18:57:44 687
原创 linux 路径问题
路径分为绝对路径和相对路径: 绝对路径: 在Linux中,绝对路径是从/(也被称为根目录)开始的,比如/usr、/etc/X11。如果一个路径是从/开始的,它一定是绝对路径,这样就好理解了; [root@localhost ~]# pwd 注:判断用户当前所处的位置,也就是说他到底位于哪? /root 注:用户当前位于/root; [root@lo
2013-09-10 11:40:55 609
转载 hive表信息,以及查看数据的些
感觉会用户,然后 查看hive表具体信息的时候,可以用 desc extended tablename; (by run)通常用户在HIVE中用SELECT语句出来结果,无法确定结果是来自哪个文件或者具体位置信息,HIVE中考虑到了这点,在Virtual Column虚列中可以指定三个静态列:1. INPUT__FILE__NAME
2013-09-09 18:23:51 2730
原创 oracle hint
1. /*+ALL_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化.例如:SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO=’SCOTT’;2. /*+FIRST_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化.例如:SE
2013-09-09 17:46:06 701
原创 sed
sed 是一种在线编辑器:理解:1,它一次处理一行内容,把当前处理的行存储在临时缓冲区中,接着用sed命令处理缓冲区中的内容;2,对源文件的内容没有任何改变,其实只是把处理的内容放在缓冲里,然后对想要的数据进行重定向输出就ok~
2013-09-09 17:28:29 528
转载 MapReduce概念(转)
转,这个博主貌似女的,写文章很清晰呀,mapreduce的基本概念,~参考原文:http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.htmlMapReduce其实是两个分离的概念:map和reduce。首先看一个简单的例子。例如,现在需要计算1w篇文章中字母‘w’的数量。这些文章
2013-09-04 10:37:33 558
转载 [Hadoop源码解读](二)MapReduce篇之Mapper类(转)
csdn用的不爽的地方就是不能转载, 这篇博主写的很清晰,留着看~ 前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。 这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run(
2013-09-03 11:11:34 710
转载 hadoop -mapper的4个方法
Hadoop的MapReduce框架中,Map动作通过Mapper类来抽象。一般来说,我们会实现自己特殊的Mapper,并注册到系统中,执行时,我们的Mapper会被MapReduce框架调用。内部类Context继承自MapContext,并没有引入任何新的方法。Mapper的四个方法是setup,map,cleanup和run。其中,setup和cleanup用于管
2013-09-03 10:47:25 4477
转载 DistributedCache In Hadoop(转)
看yuying代码,看到这个distributedCache,然后搜到这篇文章,很赞,~1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息
2013-08-31 17:35:06 511
转载 (转)Lucene,Nutch,Hadoop 之间有什么关系?
描述的比较详细~1. Nutch是基于Lucene的,Lucene是提供全文文本搜索的开源函数库,Lucene为Nutch提供了文本索引和搜索的API。2.Hadoop起源于Nutch项目,最先是Nutch的一部分,是Nutch的分布式计算模块,后来分离出来,独立发展了。3.Nutch是一个系统的搜索框架,包括爬虫、索引、查询等,而Hadoop只是让Nutch可以以分布式的方式去工
2013-08-26 15:48:05 1744
opencms建站手册.doc
2013-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人