自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 资源 (1)
  • 收藏
  • 关注

转载 Hadoop中HDFS文件系统的Append/Hflush/Read设计文档(HDFS-265:Revisit append)

转自:http://blog.csdn.net/chenpingbupt/article/details/7972589转帖请注明来自本空间地址:http://blog.csdn.net/[email protected]原文请参:https://issues.apache.org/jira/secure/attachmen

2014-12-03 18:23:54 634

转载 java 多线程简述

1、多线程的目的是为了最大限度的利用CPU资源。

2014-11-04 22:49:41 555

转载 分布式系统领域经典论文翻译集

http://duanple.blog.163.com/blog/static/709717672011330101333271/

2013-07-04 20:02:50 729

转载 rpmbuild打包错误:*** ERROR: No build ID note found in ******

在Fedora14中打rpm包,是没有/usr/src/redhat这个目录的,而是要建立~/rpmbuild目录,并建立SOURCES、SPECS、RPMS等相应目录。其它步骤相同。但是在rpmbuild -ba时,遇到如下错误:*** ERROR: No build ID note found in /home/wuyang/rpmbuild/BUILDROOT/*****

2013-01-04 23:28:19 1821

转载 linux shell 快捷键

Ctrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或exit或logoutCtrl+e转到字符尾部Ctrl+f后移一个字符Ctrl+k删除提示符后全部字符Ctrl

2012-12-29 14:32:07 412

转载 Eclipse快捷键大全

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对

2012-12-29 14:31:06 363

转载 Linux系统shell 之top命令详解

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombi

2012-12-17 11:27:33 797

转载 linux sar命令详解

sar(System Activity Reporter系统活动情况报告)是目前Linux 上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。本文主要以CentOS 6.3 x64系统为例,介绍sar命令。sar命令常用格式sar [options] [-

2012-12-15 13:47:29 437

转载 HOW TO SET UP APACHE MAHOUT

Apache Mahout is a set of machine learning tools, which deal with classification, clustering, recommendations, and other related stuff. We just bought a new book called Mahout In Action which is ful

2012-12-10 20:40:54 722

转载 Running LDA Algorithm With Mahout

The following article explains the usage of Apache Mahout’ s implementation of the Latent Dirichlet Allocation learning algorithm. The idea behind the example is to extract given number of topics fr

2012-12-07 18:18:32 1164

转载 scribe - 日志收集器 分析

1.General  description我们知道,使用日志系统是为了使系统变得更健壮,能够应对各种错误并能从错误中较快地恢复。一个大型的分布式系统生成的日志数量是巨大的,所以需要一个有效的工具对其进行管理。Scribe就是这样一个日志收集服务器,使用它可以对大型的系统进行监控。它是Facebook的一个开源组件,使用的是Facebook另一个框架—Thrift。Thrift 在我的理解就是

2012-12-02 01:10:06 693

转载 systemtap原理及使用

SystemTap的架构SystemTap用于检查运行的内核的两种方法是 Kprobes和 返回探针。但是理解任何内核的最关键要素是内核的映射,它提供符号信息(比如函数、变量以及它们的地址)。有了内核映射之后,就可以解决任何符号的地址,以及更改探针的行为。Kprobes从 2.6.9 版本开始就添加到主流的 Linux 内核中,并且为探测内核提供一般性服务。它提供一些不同的服务,但最重要的

2012-11-28 18:38:19 647

转载 Hadoop pipes编程

1. Hadoop pipes编程介绍Hadoop pipes允许C++程序员编写mapreduce程序,它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件。关于Hadoop pipes的设计思想,可参见我这篇文章:Hadoop Pipes设计原理。本文介绍了Hadoop pipes编程的

2012-11-13 23:44:29 316

转载 Hadoop pipes设计原理

1. 什么是Hadoop pipes?Hadoop pipes允许用户使用C++语言进行MapReduce程序设计。它采用的主要方法是将应用逻辑相关的C++代码放在单独的进程中,然后通过Socket让Java代码与C++代码通信。从很大程度上说,这种方法类似于Hadoop Streaming,不同之处是通信方式不同:一个是标准输入输出,另一个是socket。org.apache.hadoo

2012-11-13 23:43:56 370

转载 Hadoop-0.20.2 作业内存控制策略分析

对于Hadoop而言,对作业使用资源量进行限制是非常重要的,这可以防止一些有问题的作业因耗掉集群中大量资源而干扰其他正常作业。本文主要分析了Hadoop-0.20.2中作业内存控制相关策略,包括怎样启用Hadoop作业内存使用量控制功能,Hadoop怎样实现作业内存控制等。1. 内存相关配置项(1) 配置内存计算插件 mapred.tasktracker.memory_calcul

2012-11-13 23:43:22 530

转载 Hadoop权限管理

1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,ki

2012-11-13 23:42:51 364

转载 Hadoop Kerberos安全机制介绍

1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。 尽管在

2012-11-13 23:31:20 668

转载 Hadoop安全机制介绍

1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储

2012-11-13 23:30:50 822

转载 Hadoop 0.21.0 公平调度器源代码分析

本文对Hadoop 0.21.0中的公平调度器源代码进行了分析,没有用过多语言进行描述代码细节,而是采用图的形式给出了主要的函数调用关系,如果想了解细节,建议根据本文的提示,亲自阅读源代码。阅读本文之前,最好先了解Hadoop 0.21.0中hadoop fair scheduler的新特性,建议阅读我的这篇文章:Hadoop-0.21.0公平调度器算法分析。1. Jobracke

2012-11-13 23:25:06 797

转载 HBaseClient源码分析

本文原作者Jasmine_Du,趋势科技中国研发中心SPN研发团队成员,SPN团队在Hadoop/HBase研究上积累了很多心得,他们的团队Blog是Hadoop/HBase学习者一定要去细细研读的地方。这篇文章比较详细的讲述了HBase Client的主要接口和内部实现。————————————– 毫无理由的分割线 ———————————1 Client端主要类和接口1.1 HCon

2012-11-13 23:22:54 726

转载 Hadoop Authentication

JAAS是Java 认证和授权服务(Java Authentication and Authorization Service)的缩写,是PAM框架的Java实现。javax.sercurity.auth.Subject是一个不可继承的实体类,它表示单个实体的一组相关信息,与请求的来源相关。javax.security.auth.Principal是一个接口,表示带有不同类型凭证的

2012-11-05 09:53:36 1854

转载 source命令

命令用法:source FileName作用:在当前bash环境下读取并执行FileName中的命令。注:该命令通常用命令“.”来替代。如:source /etc/profile 与 . /etc/profile是等效的。注意:source命令与shell scripts的区别是,source在当前bash环境下执行命令,而scripts是启动一个子shell来执行命令。这样如果把设置

2012-11-03 22:48:57 343

转载 RPM包rpmbuild SPEC文件深度说明

上一篇日志写到,为什么要制作rpm包,以及如何使用.src.rpm文件生成rpm包。最后部分还看到.src.rpm的内容,实际上 就是由.tar.gz源码、补丁软件和.spec脚本组成的。由此知道,使用.spec生成rpm包是比较简单的,因为.src.rpm通常都是由软件开 发者或者第三方的专业制作人根据源码调试好的,所以,只要处理好平台兼容性和相关的版本,不会遇到太大的问题。   但我觉得单

2012-11-01 11:41:28 488

转载 解决Metadata file does not match checksum错误

[解]处理auxpropfunc error no mechanism available错误[原]putty使用密钥登陆OpenSSHNov 16[原]解决Metadata file does not match checksum错误  linuxing , 14:04 , 基础知识 » 故障处理 , 评论(2) , 引用(0) , 阅读(4535) ,

2012-11-01 09:05:40 976

转载 Hadoop 參數設定 – core-site.xml

Hadoop 相關的參數非常的多,要怎麼設定才能達到最好的效能是一件令人頭痛的事本篇是 core-site.xml 的設定及說明fs.default.name預設值 : file:///說明 : 設定 Hadoop namenode 的 hostname 及 port,預設是 Standalone mode,如果是 Pseudo-Distributed mode 要指定為

2012-10-29 10:43:23 754

转载 Hadoop 參數設定 – hdfs-site.xml

本篇是介紹 hdfs-site.xml 的相關設定及說明NameNodedfs.name.dir預設值 : ${hadoop.tmp.dir}/dfs/name說明 : 指定本機上存取 fsimage 及 editlog 的目錄,這個目錄非常的重要,如果損毀就無法存取 HDFS 的資料了,所以不建議放在 ${hadoop.tmp.dir} 目錄下。更好的做法是用 “,"

2012-10-29 10:42:33 802

转载 Hadoop 參數設定 – mapred-site.xml

本篇是介紹 mapred-site.xml 的相關設定及說明JobTrackermapred.job.tracker預設值 : local說明 : 設定 jobtracker 的 hostname 及 port。預設是 local,表示所有的 job 會用 local job runner 來執行,而且只有一個 mapper 及一個 reducer。在這個設定下,如果要

2012-10-29 10:41:13 812

转载 Configure sendmail for SMTP relay with your ISP

The following article explains the setup of sendmail for forwarding mails to your ISP's smtp server.It is assumed that you have sendmail up-to-date and configured properly.Note: this setup does no

2012-10-18 15:16:58 558

转载 Aop中动态横切与静态横切

什么是动态横切,静态横切?动态和静态的区别在哪? 首先,横切是面向方面编程的专用名词;大概是指在对象中插入新的职责;就好像一面包,我们把它从中间切开,放入点肉类,就成了汉堡,吃起来味道就不一样了;横切有两种,动态横切与静态横切;经常我们用到动态横切就是指方法拦截,而静态就是MIXIN;动态横切是通过切入点(pointcut)和链接点(joint point)在一个方面(aspect

2012-10-18 10:15:59 1176

转载 Git hook (钩子文件)机制

githooks(5)===========NAME----githooks - Hooks(钩子) used by gitSYNOPSIS--------$GIT_DIR/hooks/*简介-----------Hooks(钩子),是一些存放于`$GIT_DIR/hooks`文件夹的小脚本,在特定条件下触发动作.当执行'git init',几个示例hook将复制到新资源库的hooks文

2012-10-17 09:50:08 6914

转载 Hadoop学习资料

链接地址:http://sishuok.com/forum/blogCategory/show.html?categories_id=134&user_id=8636

2012-10-16 19:39:22 308

转载 linux top命令详解

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombie

2012-10-16 14:39:04 299

转载 java内存模型

关于JVM内存管理(适用于所有J2EE产品)援引JDK1.3为例(JDK 1.4除了在垃圾回收上有变化,其他的变化不大):现在无论是JDK1.3还是1.4,我们都是使用Sun JDK。请注意:weblogic8.0自带了2种JDK,一种是Sun JDK,另一种是BEA自己的JRocket。1. JVM内存段分配及启动参数:J2EE服务器的内存组成:? Java堆

2012-10-15 15:34:20 287

转载 JVM监控工具介绍jstack, jconsole, jinfo, jmap, jdb, jstat

jstack -- 如果java程序崩溃生成core文件,jstack工具可以用来获得core文件的java stack和native stack的信息,从而可以轻松地知道java程序是如何崩溃和在程序何处发生问题。另外,jstack工具还可以附属到正在运行的java程序中,看到当时运行的java程序的java stack和native stack的信息, 如果现在运行的java程序呈现hung的

2012-10-15 13:56:10 523

转载 Eclipse快捷键大全

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对

2012-10-15 10:00:17 256

转载 linux tar命令

tar [-cxtzjvfpPN] 文件与目录 .... 参数: -c :建立一个压缩文件的参数指令(create 的意思); -x :解开一个压缩文件的参数指令! -t :查看 tarfile 里面的文件! 特别注意,在参数的下达中, c/x/t 仅能存在一个!不可同时存在!因为不可能同时压缩与解压缩。 -z :是否同时具有 g

2012-10-12 10:06:44 263

转载 git-notifier

git-notifierVersion:0.3Home:http://www.icir.org/robin/git-notifierAuthor:Robin Sommer [email protected]>Date:2011-06-02ContentsIntroductionDown

2012-10-11 16:43:08 527

转载 Setting Up Git Commit Email Notifications

A method to send email notification to a list email addresses by the remote git server after every push from the client will be introduced.After the client pushing to the git server, several actio

2012-10-11 16:31:08 1504

转载 Git 魔法

中文版PDF 版本下载:Git_Magic_CN.pdf译自:http://www-cs-students.stanford.edu/~blynn/gitmagic$c856fe230d218688b314697794db185fbca1efe6$Git 魔法By Ben Lynn前言1. 致谢!2. 许可1. 入门1.1. 游戏这件

2012-10-11 16:25:19 1586

转载 [Git]提交后自动发email

当然是通过hooks来实现了,对应post-receive,脚本也是已经随git-core安装就有了的:/usr/share/doc/git-core/contrib/hooks/post-receive-email,不过这个脚本用到了sendmail,我想好多机器上都没配这个东东吧,好在有好心人在这个脚本的基础上进行了完善,可以用msmtp发信了,看来我以前换用msmtp配mutt太正确了,另外

2012-10-11 16:08:05 1530

hadoop-Mapreduce

hadoop-mapreduce运行的源码分析。

2011-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除