自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)

历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)第一部分 Hadoop 2.2 下载          Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需

2013-10-23 16:27:31 80933 139

转载 hive分区与分桶

1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。 当前互联网应用每天都要存储大量的日志文件,几G、几十G

2014-05-26 14:08:45 2732

原创 实现sudo 命令免密码执行

近期在进行一个自动化脚本时,由于需要在非root 用户下

2014-04-12 17:44:08 6993 2

转载 ROC曲线

ROC曲线(Receiver Operating Characteeristic Curve)是显示Classification模型真正率和假正率之间折中的一种图形化方法。 解读ROC图的一些概念定义:: 真正(True Positive , TP)被模型预测为正的正样本 假负(False Negative , FN)被模型预测为负的正样本 假正(False Positiv

2013-11-28 14:38:23 1569

转载 Linux Shell 文本文件处理

通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用Java来处理磁盘上文件的合并,需要用多少行代码。cat a b | sort | uniq > c # c 是a和b

2013-11-28 10:48:07 1523

转载 Linux Shell 编程(一)

从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操作。在Linux GUI日益完善的今天,在系统管理等领域,Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程,是每一个Linux用户的必修 功课之一。Linux的Shell

2013-11-28 10:34:07 3668

原创 Linux Shell 实现网页爬虫

#!/bin/bashcat ./cidlist | while read CID #从文件cidlist读取CIDdo{echo $CID        lynx -dump http://cheminfov.informatics.indiana.edu/rest/Chem2Bio2RDF/slap/cid=$CID  | grep "see paths" >

2013-11-27 16:58:51 8192

转载 Linux shell读取文件

在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法。为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率。方法1:while循环中执行效率最高,最常用的方法。 function while_read_LINE_bottm(){ While read LINE doecho $L

2013-11-26 17:19:02 1815

转载 awk命令

awk 用法:awk ' pattern {action} '  变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符

2013-11-26 16:52:26 1379

原创 Hadoop 集群中各结点系统时间匹配问题

由于近期项目需求,需要修改hadoop 集群系统时间,从而测试一些跟当前系统时间有关的service,然而:1、hadoop 集群的系统时间如何修改?2、是否需要修改每一台机器的时间?并写入cmos?3、是否需要严格匹配或同步?4、hadoop内部机制中尤其是hdfs所采用的操作时间是系统时间呢还是cmos时间?由于并没有搞清楚内部机制和原理,所以只能去尝试,以上问题我

2013-11-22 10:33:30 3149

原创 Perl 实现远程机器操作

1、本地机器安装perl的Net::Telnet模块(安装方法见:http://www.litvip.com/541/) 最简单的方法是: yum -y install perl-Net-Telnet2、远程服务器安装telnet(安装方法见:http://tech.ccidnet.com/art/321/20070430/1074877_1.html)3、本地pe

2013-11-19 18:14:32 2443

原创 CentOS 6 安装yum 源

Cent OS 下的yum install 相当于ubuntu的apt-get install,但是默认安装的系统源往往不能满足所需,所以需要根据情况安装其他源,方法如下:  1、选择源,这里我们采用http://mirrors.yun-idc.com/ 为例2、修改配置文件:vim /etc/yum.repos.d/CentOS-Base.repo[base]name=CentO

2013-11-10 19:29:37 5020

原创 Hive-0.11.0 安装配置过程(MySQL存储meta data)

1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装        Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外,在我们的安装中采用 my

2013-10-29 18:19:05 10383 2

原创 linux环境jdk安装及配置

注意:这里选择下载jdk并自行安装,而不是通过源直接安装(apt-get install)1、下载jkd( http://www.oracle.com/technetwork/java/javase/downloads/index.html)1.1 对于32位的系统可以下载以下两个Linux x86版本(uname -a 查看系统版本)1.2 64位系统

2013-10-15 21:49:13 83864 1

原创 java.BigInteger(java表示大整数)

当一个数字非常大时,则肯定无法用基本类型接收,所以最早碰到大数字时往往会使用String类进行接收,然后再采用String类进行接收,然后再采用拆分的方式进行计算,但操作非常麻烦,所以在Java中为了解决这样的难题提供了BigInteger类。BigInteger类表示大整数类,定义在java.math包中,如果在操作时一个整数数据已经超过了最大的类型长度long(64bit),数据就无法装入,此

2013-09-05 14:46:11 9966

转载 一个优秀程序员的成功之道:15个不可忽视的编程好习惯!!~

这是国外程序员Al katib总结的一些编程习惯。1. 动手编码之前,你需要对要编码实现的解决方案有一个正式的或粗略的设计。永远不要在没有任何设计的前提下就开始编码,除非所编代码不重要。2. 优秀的代码文档跟编程语言知识一样重要。在代码源文件中,为每个主要的代码段添加注释,解释代码的基本逻辑。最好注明程序的构建和修改日期,以及修改的原因也是非常有必要的。3. 维护程序的各个

2013-09-05 14:45:19 1528

原创 java读入输出文件字符串

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOEx

2013-09-05 14:43:14 1626

转载 计算机领域国际会议分区表

分区表1.     AREA: Data Bases一区 (332)1.     SIGMOD: ACM SIGMOD Conf on Management of Data (78)2.     PODS: ACM SIGMOD Conf on Principles of DB Systems(30)3.     VLDB: Very Large Data Bases (96)

2013-09-05 14:39:11 11120

原创 Linux(服务器)安装过程

Linux安装过程如下:1. 下载Ubuntu 1204 server ISO:http://mirrors.163.com/ubuntu-releases/12.04.2/ubuntu-12.04.2-server-amd64.iso2. 在Windows中安装『UltraISO』软件,把上面下载的ubuntu-12.04.2-server-amd64.i

2013-09-05 14:35:38 4878

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除