- 博客(57)
- 收藏
- 关注
原创 Linux 下正确关机方法
1 关机前准备1.1 观察系统使用状态1.2 通知在线使用者关机时间2 关机命令2.1 sync2.2 shutdown2.3 reboot2.4 halt2.5 poweroff3 执行等级3.1 等级划分3.2 等级切换1 关机前准备1.1 观察系统使用状态谁在线:who...
2013-09-13 13:05:20
79
原创 linux 文件打开数设置 (转)
修改下Linux的配置: 修改 /etc/sysctl.conf,增加fs.file-max = 8061540修改 /etc/security/limit.conf,增加 * soft 8192 和 * hard 16384 ulimit -n 4096也就是限制用户的最大文件打开数为4096个 当前设置最大打开文件数可以通过如下命令查看。 ulimit -n...
2013-09-06 14:32:20
123
原创 程序开过多线程,导致hadoop作业无法运行成功
Exception in thread "Thread-20" java.io.IOException: Call to /.....:8020 failed on local exception: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client.wrapException(Clien...
2013-09-06 08:30:34
104
原创 Misunderstanding the Law of Demeter
http://www.dan-manges.com/blog/37 The Law of Demeter is not easy to understand when reading it for the first time. Quoting the definition from Wikipedia:More formally, the Law of Demeter forf...
2013-09-05 17:11:57
91
原创 Law of Demeter
Researchers have formulated a rule called the “Law of Demeter” (Lieberherr and Holland 1989) which essentially states that Object A can call any of its own routines. If Object A instantiates an ...
2013-09-05 17:04:39
58
原创 Linux中find常见用法示例(转)
·find path -option [ -print ] [ -exec -ok command ] {} \;find命令的参数;pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出的s...
2013-09-03 14:18:36
80
原创 Linux 任务控制(bg job fg nohup &)
Linux 任务控制(bg job fg nohup &)一、 简介 Linux/Unix 区别于微软平台最大的优点就是真正的多用户,多任务。因此在任务管理上也有别具特色的管理思想。我 们知道,在 Windows 上面,我们要么让一个程序作为服务在后台一直运行,要么停止这个服务。而不能让程序在前台后台之间切换。而 Linux 提供了 fg 和bg 命令,让你轻松调度正在运...
2013-08-30 14:27:41
135
原创 Hadoop客户端的命令别名配置
由于hadoop的一些管理命令相对较长,所以为了使用的方便下面把一些命令创建别名的方式来使用!1. 安装客户端(通过端用户可以方便的和集群交互) 2. 修改客户端~/.bashrc alias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置 alias hls='hadoop fs ...
2013-08-22 14:32:36
334
原创 Linux下Fork与Exec使用(转)
一、引言 对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执 行一次却返回两个值。fork函数是Unix系统最杰出的成就之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一 方面,它使操作系统在进程管理上付出了最小的代价,另一方面,又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不 同,Unix/...
2013-08-14 13:17:36
72
原创 Linux shell创建空文件(0字节大小)文件方法
echo>fileName创建的文件是1个字节的。学习后发现创建空文件(0字节大小)的文件有以下几个方法 一、file不存在时,touch file可以创建空文件 二、:>file可以创建空文件,如果file存在,则把file截断为0字节 三、>file可以在bash下完成和:>file相同的功能,但是tcsh下不能使用 四、&>file和>file一...
2013-08-14 11:14:11
760
原创 Linux shell逐行读取文件的方法(转)
在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法。为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率。方法1:while循环中执行效率最高,最常用的方法。 function while_read_LINE_bottm(){ While read LINE doecho $LINEdone &...
2013-08-14 10:55:26
66
原创 java 泛型详解(转)
普通泛型Java代码 class Point<T>{ // 此处可以随便写标识符号,T是type的简称 private T var ; // var的类型由T指定,即:由外部指定 public T getVar(){ // 返回值的类型由外部决定 return var ; } ...
2013-07-16 17:14:40
69
原创 TF-IDF与余弦相似性的应用(三):自动摘要 (转)
原文: http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,...
2013-07-10 14:57:56
42
原创 TF-IDF与余弦相似性的应用(二):找出相似文章 (转)
原文:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相...
2013-07-10 14:56:57
55
原创 TF-IDF与余弦相似性的应用(一):自动提取关键词 (转)
原文: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿...
2013-07-10 14:55:43
73
原创 collecting hadoop's logs
http://blog.cloudera.com/blog/2008/11/configuring-and-using-scribe-for-hadoop-log-collection/ http://www.myhowto.org/java/2013/01/20/collecting-diagnostic-information-from-mapreduce-jobs-in-hadoo...
2013-07-05 16:28:17
48
原创 String中intern的方法(转)
首先查看官方API那个的解释:———————————————————————————————————————internpublic String intern()返回字符串对象的规范化表示形式。一个初始时为空的字符串池,它由类 String 私有地维护。当调用 intern 方法时,如果池已经包含一个等于此 String 对象的字符串(该对象由 equals(Obje...
2013-06-19 08:08:34
56
用flume 采集log4j 日志 到hdfs
1. Web server 集群数据采集采用的架构 2. 在每台web server上启动一个flume agent ( Flume1.3.1 : http://flume.apache.org/download.html ),启动命令为:./bin/flume-ng agent --conf-file ./conf/flume.conf --name a1 -Dflume.r...
2013-05-29 17:24:22
131
原创 Eclipse 安装Maven插件(转)
1先安装subeclipse插件就是svnsvn - http://subclipse.tigris.org/update_1.6.x 我这里是灰色的说明我安装过了这里只是截图说明下,我就不继续安装了安装这些就可以了,多了没必要。安装过程中可能会出异常,请不用管它,subclipse官方说这异常时插件没被eclipse标注,对安装使用没啥影响,继续就好。安装完...
2013-05-22 11:22:50
51
原创 Mac OS上配置hadoop eclipse 调试环境
1. 配置Hadoop 将下载的Hadoop压缩文件解压缩,找到conf目录,打开core-site.xml,修改代码如下所示:Xml代码 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put...
2013-05-20 15:13:05
196
原创 (转)使用Ant编译Hadoop eclipse插件
转自 http://xiaoruoen.blog.51cto.com/4828946/872274 进入%Hadoop_HOME%\src\contrib\ 编辑build-contrib.xml 加入 <property name="version" value="1.0.3"/> <prope...
2013-05-20 15:00:31
44
原创 【Hadoop实战】在Mac OS上配置Hadoop伪分布式环境
最近大数据很流行,而Hadoop又 是分析大数据的有力工具,加之工作需要,我近期也在学习hadoop的相关知识。学习归学习,还是要实践;而实践,得先有环境。看到教科书上的一些方法, 都是在linux上配置;mac与linux相近,我就在mac os上实践了。mac os版本是10.8.1,配置的是单机伪分布式环境,目的是学习hadoop程序编写;至于hadoop集群搭建,暂时不感兴趣。 ...
2013-05-20 12:46:38
236
原创 数据挖掘10大算法(1)——PageRank
1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文章 在这些算法中,最引人注目的自然是Google的核心...
2013-05-17 14:37:02
44
原创 B树、B-树、B+树、B*树
B树 即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right); 2.所有结点存储一个关键字; 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等...
2013-05-07 14:25:17
28
原创 HBase技术介绍
http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google ...
2013-05-03 16:31:55
32
原创 Hbase/MultipleMasters - Hadoop Wiki
http://wiki.apache.org/hadoop/Hbase/MultipleMasters This document is still a draft Since version 0.20.0 HBase supports multiple Masters to provide higher availability. It works in the same way ...
2013-05-03 10:49:05
122
原创 Setup Multi Hbase master on Hadoop Cluster
http://2hei.net/setup-multi-hbase-master-on-hadoop-cluster.html Setup Multi Hbase master on Hadoop Cluster to avoid single point failure. When active master failed/down for some reason exce...
2013-05-03 10:46:50
142
原创 HBase HMaster Architecture
http://blog.zahoor.in/2012/08/hbase-hmaster-architecture/ HBase architecture follows the traditional master slave model where you have a master which takes decisions and one or more slaves which ...
2013-05-03 10:44:59
104
原创 Using the libjars option with Hadoop
http://grepalex.com/2013/02/25/hadoop-libjars/ When working with MapReduce one of the challenges that is encountered early-on is determining how to make your third-part JAR’s available to the ...
2013-05-03 10:43:05
48
原创 hadoop面试题 (转)
Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFile...
2013-04-08 15:14:11
46
原创 数据挖掘面试题总结(转)
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记...
2013-04-08 15:13:06
61
原创 hbase 介绍
http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoo...
2012-02-15 16:06:51
30
原创 Java 理论和实践: 了解泛型
http://www.ibm.com/developerworks/cn/java/j-jtp01255.html Java 理论和实践: 了解泛型识别和避免学习使用泛型过程中的陷阱Brian Goetz (brian@quiotix.com), 首席顾问, Quiotix简介: JDK 5.0 中增加的泛型类型,是 Java 语言中类型安...
2012-02-15 16:05:32
35
原创 JAVA Protected详解
(1)除了在(2)中表述的有关继承方面的区别之外,在某个类中定义的protected 方法和属性(注意是定义的,不是继承而来的,对于继承而来的情况在(2)中有表述)和默认权限方法和属性是一样的。比如,某类的protected 方法和属性在包外是不能通过该类对象进行访问的(你能在包外访问一个类的默认权限的方法和属性吗?当然不能),这就是为什么在某对象所在的包的以外的任何地方,你不可以...
2012-02-10 15:33:57
89
原创 HBase性能深度分析(转)
http://www.spnguru.com/2010/11/hbase%E6%80%A7%E8%83%BD%E6%B7%B1%E5%BA%A6%E5%88%86%E6%9E%90/ 对于Bigtable类型的分布式数据库应用来说,用户往往会对其性能状况有极大的兴趣,这其中又对实时数据插入性能更为关注。HBase作为Bigtable的一个实现,在这方面的性能会如何呢?这就需要通过测试数据来...
2011-12-22 11:18:55
75
原创 HBase技术介绍(转)
http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google ...
2011-12-21 15:29:15
38
原创 hbase介绍(转)
http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contri...
2011-12-21 15:27:51
39
原创 Fair Scheduler
http://hadoop.apache.org/common/docs/current/fair_scheduler.html
2011-12-21 15:11:09
42
原创 (转)MapReduce源码分析总结
转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx参考:1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/2 coderplay的avaeyehttp://coderplay.javaeye.com/blog/295097http://c...
2011-12-21 14:59:47
29
原创 Hadoop学习总结之五:Hadoop的运行痕迹(转)
Hadoop 学习总结之一:HDFS简介Hadoop学习总结之二:HDFS读写过程解析Hadoop学习总结之三:Map-Reduce入门Hadoop学习总结之四:Map-Reduce的过程解析 在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟...
2011-12-21 14:57:28
41
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人