llystar-CSDN博客

原创 Linux 下正确关机方法

1 关机前准备1.1 观察系统使用状态1.2 通知在线使用者关机时间2 关机命令2.1 sync2.2 shutdown2.3 reboot2.4 halt2.5 poweroff3 执行等级3.1 等级划分3.2 等级切换1 关机前准备1.1 观察系统使用状态谁在线:who...

2013-09-13 13:05:20 226

原创 linux 文件打开数设置 (转)

修改下Linux的配置：修改 /etc/sysctl.conf，增加fs.file-max = 8061540修改 /etc/security/limit.conf，增加 * soft 8192 和 * hard 16384 ulimit -n 4096也就是限制用户的最大文件打开数为4096个当前设置最大打开文件数可以通过如下命令查看。 ulimit -n...

2013-09-06 14:32:20 321

Exception in thread "Thread-20" java.io.IOException: Call to /.....:8020 failed on local exception: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client.wrapException(Clien...

2013-09-06 08:30:34 319

原创 Misunderstanding the Law of Demeter

http://www.dan-manges.com/blog/37 The Law of Demeter is not easy to understand when reading it for the first time. Quoting the definition from Wikipedia:More formally, the Law of Demeter forf...

2013-09-05 17:11:57 243

原创 Law of Demeter

Researchers have formulated a rule called the “Law of Demeter” (Lieberherr and Holland 1989) which essentially states that Object A can call any of its own routines. If Object A instantiates an ...

2013-09-05 17:04:39 144

原创 Linux中find常见用法示例(转)

·find path -option [ -print ] [ -exec -ok command ] {} \;find命令的参数；pathname: find命令所查找的目录路径。例如用.来表示当前目录，用/来表示系统根目录。-print： find命令将匹配的文件输出到标准输出。-exec： find命令对匹配的文件执行该参数所给出的s...

2013-09-03 14:18:36 165

原创 Linux 任务控制(bg job fg nohup &)

Linux 任务控制(bg job fg nohup &)一、简介 Linux/Unix 区别于微软平台最大的优点就是真正的多用户，多任务。因此在任务管理上也有别具特色的管理思想。我们知道，在 Windows 上面，我们要么让一个程序作为服务在后台一直运行，要么停止这个服务。而不能让程序在前台后台之间切换。而 Linux 提供了 fg 和bg 命令，让你轻松调度正在运...

2013-08-30 14:27:41 225

原创 Hadoop客户端的命令别名配置

由于hadoop的一些管理命令相对较长，所以为了使用的方便下面把一些命令创建别名的方式来使用！1. 安装客户端（通过端用户可以方便的和集群交互） 2. 修改客户端~/.bashrc alias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置 alias hls='hadoop fs ...

2013-08-22 14:32:36 527

原创 Linux下Fork与Exec使用(转)

一、引言　　对于没有接触过Unix/Linux操作系统的人来说，fork是最难理解的概念之一：它执行一次却返回两个值。fork函数是Unix系统最杰出的成就之一，它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果，一方面，它使操作系统在进程管理上付出了最小的代价，另一方面，又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不同，Unix/...

2013-08-14 13:17:36 164

原创 Linux shell创建空文件(0字节大小)文件方法

echo>fileName创建的文件是1个字节的。学习后发现创建空文件(0字节大小)的文件有以下几个方法一、file不存在时，touch file可以创建空文件二、:>file可以创建空文件，如果file存在，则把file截断为0字节三、>file可以在bash下完成和:>file相同的功能，但是tcsh下不能使用四、&>file和>file一...

2013-08-14 11:14:11 976

原创 Linux shell逐行读取文件的方法(转)

在Linux中有很多方法逐行读取一个文件的方法，其中最常用的就是下面的脚本里的方法，而且是效率最高，使用最多的方法。为了给大家一个直观的感受，我们将通过生成一个大的文件的方式来检验各种方法的执行效率。方法1：while循环中执行效率最高，最常用的方法。 function while_read_LINE_bottm(){ While read LINE doecho $LINEdone &...

2013-08-14 10:55:26 159

原创 java 泛型详解(转)

普通泛型Java代码 class Point<T>{ // 此处可以随便写标识符号，T是type的简称 private T var ; // var的类型由T指定，即：由外部指定 public T getVar(){ // 返回值的类型由外部决定 return var ; } ...

2013-07-16 17:14:40 133

原创 TF-IDF与余弦相似性的应用（三）：自动摘要（转）

原文： http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，...

2013-07-10 14:57:56 110

原创 TF-IDF与余弦相似性的应用（二）：找出相似文章（转）

原文：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相...

2013-07-10 14:56:57 132

原创 TF-IDF与余弦相似性的应用（一）：自动提取关键词（转）

原文： http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿...

2013-07-10 14:55:43 187

原创 collecting hadoop's logs

http://blog.cloudera.com/blog/2008/11/configuring-and-using-scribe-for-hadoop-log-collection/ http://www.myhowto.org/java/2013/01/20/collecting-diagnostic-information-from-mapreduce-jobs-in-hadoo...

2013-07-05 16:28:17 124

原创 String中intern的方法(转)

首先查看官方API那个的解释：———————————————————————————————————————internpublic String intern()返回字符串对象的规范化表示形式。一个初始时为空的字符串池，它由类 String 私有地维护。当调用 intern 方法时，如果池已经包含一个等于此 String 对象的字符串（该对象由 equals(Obje...

2013-06-19 08:08:34 122

用flume 采集log4j 日志到hdfs

1. Web server 集群数据采集采用的架构 2. 在每台web server上启动一个flume agent ( Flume1.3.1 : http://flume.apache.org/download.html )，启动命令为：./bin/flume-ng agent --conf-file ./conf/flume.conf --name a1 -Dflume.r...

2013-05-29 17:24:22 231

原创 Eclipse 安装Maven插件(转)

1先安装subeclipse插件就是svnsvn - http://subclipse.tigris.org/update_1.6.x 我这里是灰色的说明我安装过了这里只是截图说明下，我就不继续安装了安装这些就可以了，多了没必要。安装过程中可能会出异常，请不用管它，subclipse官方说这异常时插件没被eclipse标注，对安装使用没啥影响，继续就好。安装完...

2013-05-22 11:22:50 101

原创 Mac OS上配置hadoop eclipse 调试环境

1. 配置Hadoop 将下载的Hadoop压缩文件解压缩，找到conf目录，打开core-site.xml，修改代码如下所示：Xml代码 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put...

2013-05-20 15:13:05 293

原创 (转)使用Ant编译Hadoop eclipse插件

转自 http://xiaoruoen.blog.51cto.com/4828946/872274 进入%Hadoop_HOME%\src\contrib\ 编辑build-contrib.xml 加入 <property name="version" value="1.0.3"/> <prope...

2013-05-20 15:00:31 135

原创【Hadoop实战】在Mac OS上配置Hadoop伪分布式环境

最近大数据很流行，而Hadoop又是分析大数据的有力工具，加之工作需要，我近期也在学习hadoop的相关知识。学习归学习，还是要实践；而实践，得先有环境。看到教科书上的一些方法，都是在linux上配置；mac与linux相近，我就在mac os上实践了。mac os版本是10.8.1，配置的是单机伪分布式环境，目的是学习hadoop程序编写；至于hadoop集群搭建，暂时不感兴趣。 ...

2013-05-20 12:46:38 316

原创数据挖掘10大算法(1)——PageRank

1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法（见图1）。文章的重点将偏向于算法的来源以及算法的主要思想，不涉及具体的实现。如果发现文中有错，希望各位指出来，一起讨论。图1 来自IDMer的文章在这些算法中，最引人注目的自然是Google的核心...

2013-05-17 14:37:02 110

原创 B树、B-树、B+树、B*树

B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关键字相等...

2013-05-07 14:25:17 77

原创 HBase技术介绍

http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google ...

2013-05-03 16:31:55 104

原创 Hbase/MultipleMasters - Hadoop Wiki

http://wiki.apache.org/hadoop/Hbase/MultipleMasters This document is still a draft Since version 0.20.0 HBase supports multiple Masters to provide higher availability. It works in the same way ...

2013-05-03 10:49:05 186

原创 Setup Multi Hbase master on Hadoop Cluster

http://2hei.net/setup-multi-hbase-master-on-hadoop-cluster.html Setup Multi Hbase master on Hadoop Cluster to avoid single point failure. When active master failed/down for some reason exce...

2013-05-03 10:46:50 240

原创 HBase HMaster Architecture

http://blog.zahoor.in/2012/08/hbase-hmaster-architecture/ HBase architecture follows the traditional master slave model where you have a master which takes decisions and one or more slaves which ...

2013-05-03 10:44:59 338

原创 Using the libjars option with Hadoop

http://grepalex.com/2013/02/25/hadoop-libjars/ When working with MapReduce one of the challenges that is encountered early-on is determining how to make your third-part JAR’s available to the ...

2013-05-03 10:43:05 148

原创 hadoop面试题（转）

Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFile...

2013-04-08 15:14:11 98

原创数据挖掘面试题总结(转)

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记...

2013-04-08 15:13:06 144

原创 hbase 介绍

http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoo...

2012-02-15 16:06:51 75

原创 Java 理论和实践: 了解泛型

http://www.ibm.com/developerworks/cn/java/j-jtp01255.html Java 理论和实践: 了解泛型识别和避免学习使用泛型过程中的陷阱Brian Goetz (brian@quiotix.com), 首席顾问, Quiotix简介： JDK 5.0 中增加的泛型类型，是 Java 语言中类型安...

2012-02-15 16:05:32 92

原创 JAVA Protected详解

（1）除了在（2）中表述的有关继承方面的区别之外，在某个类中定义的protected 方法和属性（注意是定义的，不是继承而来的，对于继承而来的情况在（2）中有表述）和默认权限方法和属性是一样的。比如，某类的protected 方法和属性在包外是不能通过该类对象进行访问的（你能在包外访问一个类的默认权限的方法和属性吗？当然不能），这就是为什么在某对象所在的包的以外的任何地方，你不可以...

2012-02-10 15:33:57 186

原创 HBase性能深度分析（转）

http://www.spnguru.com/2010/11/hbase%E6%80%A7%E8%83%BD%E6%B7%B1%E5%BA%A6%E5%88%86%E6%9E%90/ 对于Bigtable类型的分布式数据库应用来说，用户往往会对其性能状况有极大的兴趣，这其中又对实时数据插入性能更为关注。HBase作为Bigtable的一个实现，在这方面的性能会如何呢？这就需要通过测试数据来...

2011-12-22 11:18:55 129

原创 HBase技术介绍（转）

http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google ...

2011-12-21 15:29:15 98

原创 hbase介绍（转）

http://www.tbdata.org/archives/1509 hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contri...

2011-12-21 15:27:51 97

原创 Fair Scheduler

http://hadoop.apache.org/common/docs/current/fair_scheduler.html

2011-12-21 15:11:09 97

原创 (转)MapReduce源码分析总结

转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx参考：1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/2 coderplay的avaeyehttp://coderplay.javaeye.com/blog/295097http://c...

2011-12-21 14:59:47 101

原创 Hadoop学习总结之五：Hadoop的运行痕迹(转)

Hadoop 学习总结之一：HDFS简介Hadoop学习总结之二：HDFS读写过程解析Hadoop学习总结之三：Map-Reduce入门Hadoop学习总结之四：Map-Reduce的过程解析在使用hadoop的时候，可能遇到各种各样的问题，然而由于hadoop的运行机制比较复杂，因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟...

2011-12-21 14:57:28 151

空空如也

空空如也