自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 Linux 下正确关机方法

1 关机前准备1.1 观察系统使用状态1.2 通知在线使用者关机时间2 关机命令2.1 sync2.2 shutdown2.3 reboot2.4 halt2.5 poweroff3 执行等级3.1 等级划分3.2 等级切换1 关机前准备1.1 观察系统使用状态谁在线:who...

2013-09-13 13:05:20 157

原创 linux 文件打开数设置 (转)

修改下Linux的配置: 修改 /etc/sysctl.conf,增加fs.file-max = 8061540修改 /etc/security/limit.conf,增加 * soft 8192 和 * hard 16384 ulimit -n 4096也就是限制用户的最大文件打开数为4096个 当前设置最大打开文件数可以通过如下命令查看。   ulimit -n...

2013-09-06 14:32:20 220

原创 程序开过多线程,导致hadoop作业无法运行成功

Exception in thread "Thread-20" java.io.IOException: Call to /.....:8020 failed on local exception: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client.wrapException(Clien...

2013-09-06 08:30:34 251

原创 Misunderstanding the Law of Demeter

http://www.dan-manges.com/blog/37 The Law of Demeter is not easy to understand when reading it for the first time. Quoting the definition from Wikipedia:More formally, the Law of Demeter forf...

2013-09-05 17:11:57 160

原创 Law of Demeter

     Researchers have formulated a rule called the “Law of  Demeter” (Lieberherr and Holland 1989) which essentially states that Object A can call any of its own routines. If Object A instantiates an ...

2013-09-05 17:04:39 96

原创 Linux中find常见用法示例(转)

·find   path   -option   [   -print ]   [ -exec   -ok   command ]   {} \;find命令的参数;pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出的s...

2013-09-03 14:18:36 103

原创 Linux 任务控制(bg job fg nohup &)

Linux 任务控制(bg job fg nohup &)一、 简介     Linux/Unix 区别于微软平台最大的优点就是真正的多用户,多任务。因此在任务管理上也有别具特色的管理思想。我 们知道,在 Windows 上面,我们要么让一个程序作为服务在后台一直运行,要么停止这个服务。而不能让程序在前台后台之间切换。而 Linux 提供了 fg 和bg 命令,让你轻松调度正在运...

2013-08-30 14:27:41 159

原创 Hadoop客户端的命令别名配置

由于hadoop的一些管理命令相对较长,所以为了使用的方便下面把一些命令创建别名的方式来使用!1. 安装客户端(通过端用户可以方便的和集群交互) 2. 修改客户端~/.bashrc alias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置 alias hls='hadoop fs ...

2013-08-22 14:32:36 438

原创 Linux下Fork与Exec使用(转)

一、引言  对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执 行一次却返回两个值。fork函数是Unix系统最杰出的成就之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一 方面,它使操作系统在进程管理上付出了最小的代价,另一方面,又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不 同,Unix/...

2013-08-14 13:17:36 116

原创 Linux shell创建空文件(0字节大小)文件方法

echo>fileName创建的文件是1个字节的。学习后发现创建空文件(0字节大小)的文件有以下几个方法 一、file不存在时,touch file可以创建空文件 二、:>file可以创建空文件,如果file存在,则把file截断为0字节 三、>file可以在bash下完成和:>file相同的功能,但是tcsh下不能使用 四、&>file和>file一...

2013-08-14 11:14:11 882

原创 Linux shell逐行读取文件的方法(转)

在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法。为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率。方法1:while循环中执行效率最高,最常用的方法。 function while_read_LINE_bottm(){ While read LINE doecho $LINEdone  &...

2013-08-14 10:55:26 87

原创 java 泛型详解(转)

普通泛型Java代码 class Point<T>{       // 此处可以随便写标识符号,T是type的简称      private T var ; // var的类型由T指定,即:由外部指定      public T getVar(){  // 返回值的类型由外部决定          return var ;      }  ...

2013-07-16 17:14:40 91

原创 TF-IDF与余弦相似性的应用(三):自动摘要 (转)

原文: http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,...

2013-07-10 14:57:56 68

原创 TF-IDF与余弦相似性的应用(二):找出相似文章 (转)

原文:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html  上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相...

2013-07-10 14:56:57 88

原创 TF-IDF与余弦相似性的应用(一):自动提取关键词 (转)

原文: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿...

2013-07-10 14:55:43 120

原创 collecting hadoop's logs

http://blog.cloudera.com/blog/2008/11/configuring-and-using-scribe-for-hadoop-log-collection/ http://www.myhowto.org/java/2013/01/20/collecting-diagnostic-information-from-mapreduce-jobs-in-hadoo...

2013-07-05 16:28:17 79

原创 String中intern的方法(转)

首先查看官方API那个的解释:———————————————————————————————————————internpublic String intern()返回字符串对象的规范化表示形式。一个初始时为空的字符串池,它由类 String 私有地维护。当调用 intern 方法时,如果池已经包含一个等于此 String 对象的字符串(该对象由 equals(Obje...

2013-06-19 08:08:34 85

用flume 采集log4j 日志 到hdfs

1.    Web server 集群数据采集采用的架构  2.    在每台web server上启动一个flume agent ( Flume1.3.1 : http://flume.apache.org/download.html  ),启动命令为:./bin/flume-ng agent --conf-file ./conf/flume.conf --name a1 -Dflume.r...

2013-05-29 17:24:22 175

原创 Eclipse 安装Maven插件(转)

1先安装subeclipse插件就是svnsvn - http://subclipse.tigris.org/update_1.6.x 我这里是灰色的说明我安装过了这里只是截图说明下,我就不继续安装了安装这些就可以了,多了没必要。安装过程中可能会出异常,请不用管它,subclipse官方说这异常时插件没被eclipse标注,对安装使用没啥影响,继续就好。安装完...

2013-05-22 11:22:50 68

原创 Mac OS上配置hadoop eclipse 调试环境

1. 配置Hadoop 将下载的Hadoop压缩文件解压缩,找到conf目录,打开core-site.xml,修改代码如下所示:Xml代码  <?xml version="1.0"?>  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>    <!-- Put...

2013-05-20 15:13:05 247

原创 (转)使用Ant编译Hadoop eclipse插件

转自  http://xiaoruoen.blog.51cto.com/4828946/872274      进入%Hadoop_HOME%\src\contrib\   编辑build-contrib.xml   加入   <property name="version" value="1.0.3"/>   <prope...

2013-05-20 15:00:31 80

原创 【Hadoop实战】在Mac OS上配置Hadoop伪分布式环境

最近大数据很流行,而Hadoop又 是分析大数据的有力工具,加之工作需要,我近期也在学习hadoop的相关知识。学习归学习,还是要实践;而实践,得先有环境。看到教科书上的一些方法, 都是在linux上配置;mac与linux相近,我就在mac os上实践了。mac os版本是10.8.1,配置的是单机伪分布式环境,目的是学习hadoop程序编写;至于hadoop集群搭建,暂时不感兴趣。 ...

2013-05-20 12:46:38 260

原创 数据挖掘10大算法(1)——PageRank

1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。                                                       图1 来自IDMer的文章    在这些算法中,最引人注目的自然是Google的核心...

2013-05-17 14:37:02 63

原创 B树、B-树、B+树、B*树

  B树       即二叉搜索树:       1.所有非叶子结点至多拥有两个儿子(Left和Right);       2.所有结点存储一个关键字;       3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;       如:              B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等...

2013-05-07 14:25:17 41

原创 HBase技术介绍

http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google ...

2013-05-03 16:31:55 56

原创 Hbase/MultipleMasters - Hadoop Wiki

http://wiki.apache.org/hadoop/Hbase/MultipleMasters This document is still a draft Since version 0.20.0 HBase supports multiple Masters to provide higher availability. It works in the same way ...

2013-05-03 10:49:05 146

原创 Setup Multi Hbase master on Hadoop Cluster

  http://2hei.net/setup-multi-hbase-master-on-hadoop-cluster.html Setup Multi Hbase master on Hadoop Cluster to avoid single point failure. When active master failed/down for some reason exce...

2013-05-03 10:46:50 187

原创 HBase HMaster Architecture

http://blog.zahoor.in/2012/08/hbase-hmaster-architecture/ HBase architecture follows the traditional master slave model where you have a master which takes decisions and one or more slaves which ...

2013-05-03 10:44:59 218

原创 Using the libjars option with Hadoop

http://grepalex.com/2013/02/25/hadoop-libjars/  When working with MapReduce one of the challenges that is encountered early-on is determining how to make your third-part JAR’s available to the ...

2013-05-03 10:43:05 86

原创 hadoop面试题 (转)

Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFile...

2013-04-08 15:14:11 64

原创 数据挖掘面试题总结(转)

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?       方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。       s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记...

2013-04-08 15:13:06 95

原创 hbase 介绍

http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoo...

2012-02-15 16:06:51 44

原创 Java 理论和实践: 了解泛型

http://www.ibm.com/developerworks/cn/java/j-jtp01255.html Java 理论和实践: 了解泛型识别和避免学习使用泛型过程中的陷阱Brian Goetz (brian@quiotix.com), 首席顾问, Quiotix简介: JDK 5.0 中增加的泛型类型,是 Java 语言中类型安...

2012-02-15 16:05:32 59

原创 JAVA Protected详解

(1)除了在(2)中表述的有关继承方面的区别之外,在某个类中定义的protected 方法和属性(注意是定义的,不是继承而来的,对于继承而来的情况在(2)中有表述)和默认权限方法和属性是一样的。比如,某类的protected 方法和属性在包外是不能通过该类对象进行访问的(你能在包外访问一个类的默认权限的方法和属性吗?当然不能),这就是为什么在某对象所在的包的以外的任何地方,你不可以...

2012-02-10 15:33:57 110

原创 HBase性能深度分析(转)

http://www.spnguru.com/2010/11/hbase%E6%80%A7%E8%83%BD%E6%B7%B1%E5%BA%A6%E5%88%86%E6%9E%90/ 对于Bigtable类型的分布式数据库应用来说,用户往往会对其性能状况有极大的兴趣,这其中又对实时数据插入性能更为关注。HBase作为Bigtable的一个实现,在这方面的性能会如何呢?这就需要通过测试数据来...

2011-12-22 11:18:55 87

原创 HBase技术介绍(转)

http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google ...

2011-12-21 15:29:15 60

原创 hbase介绍(转)

http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contri...

2011-12-21 15:27:51 55

原创 Fair Scheduler

http://hadoop.apache.org/common/docs/current/fair_scheduler.html 

2011-12-21 15:11:09 55

原创 (转)MapReduce源码分析总结

转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx参考:1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/2 coderplay的avaeyehttp://coderplay.javaeye.com/blog/295097http://c...

2011-12-21 14:59:47 44

原创 Hadoop学习总结之五:Hadoop的运行痕迹(转)

Hadoop 学习总结之一:HDFS简介Hadoop学习总结之二:HDFS读写过程解析Hadoop学习总结之三:Map-Reduce入门Hadoop学习总结之四:Map-Reduce的过程解析  在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟...

2011-12-21 14:57:28 63

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除