- 博客(19)
- 收藏
- 关注
原创 Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)
历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需
2013-10-23 16:27:31 80933 139
转载 hive分区与分桶
1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。 当前互联网应用每天都要存储大量的日志文件,几G、几十G
2014-05-26 14:08:45 2732
转载 ROC曲线
ROC曲线(Receiver Operating Characteeristic Curve)是显示Classification模型真正率和假正率之间折中的一种图形化方法。 解读ROC图的一些概念定义:: 真正(True Positive , TP)被模型预测为正的正样本 假负(False Negative , FN)被模型预测为负的正样本 假正(False Positiv
2013-11-28 14:38:23 1569
转载 Linux Shell 文本文件处理
通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用Java来处理磁盘上文件的合并,需要用多少行代码。cat a b | sort | uniq > c # c 是a和b
2013-11-28 10:48:07 1523
转载 Linux Shell 编程(一)
从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操作。在Linux GUI日益完善的今天,在系统管理等领域,Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程,是每一个Linux用户的必修 功课之一。Linux的Shell
2013-11-28 10:34:07 3668
原创 Linux Shell 实现网页爬虫
#!/bin/bashcat ./cidlist | while read CID #从文件cidlist读取CIDdo{echo $CID lynx -dump http://cheminfov.informatics.indiana.edu/rest/Chem2Bio2RDF/slap/cid=$CID | grep "see paths" >
2013-11-27 16:58:51 8192
转载 Linux shell读取文件
在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法。为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率。方法1:while循环中执行效率最高,最常用的方法。 function while_read_LINE_bottm(){ While read LINE doecho $L
2013-11-26 17:19:02 1815
转载 awk命令
awk 用法:awk ' pattern {action} ' 变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符
2013-11-26 16:52:26 1379
原创 Hadoop 集群中各结点系统时间匹配问题
由于近期项目需求,需要修改hadoop 集群系统时间,从而测试一些跟当前系统时间有关的service,然而:1、hadoop 集群的系统时间如何修改?2、是否需要修改每一台机器的时间?并写入cmos?3、是否需要严格匹配或同步?4、hadoop内部机制中尤其是hdfs所采用的操作时间是系统时间呢还是cmos时间?由于并没有搞清楚内部机制和原理,所以只能去尝试,以上问题我
2013-11-22 10:33:30 3149
原创 Perl 实现远程机器操作
1、本地机器安装perl的Net::Telnet模块(安装方法见:http://www.litvip.com/541/) 最简单的方法是: yum -y install perl-Net-Telnet2、远程服务器安装telnet(安装方法见:http://tech.ccidnet.com/art/321/20070430/1074877_1.html)3、本地pe
2013-11-19 18:14:32 2443
原创 CentOS 6 安装yum 源
Cent OS 下的yum install 相当于ubuntu的apt-get install,但是默认安装的系统源往往不能满足所需,所以需要根据情况安装其他源,方法如下: 1、选择源,这里我们采用http://mirrors.yun-idc.com/ 为例2、修改配置文件:vim /etc/yum.repos.d/CentOS-Base.repo[base]name=CentO
2013-11-10 19:29:37 5020
原创 Hive-0.11.0 安装配置过程(MySQL存储meta data)
1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外,在我们的安装中采用 my
2013-10-29 18:19:05 10383 2
原创 linux环境jdk安装及配置
注意:这里选择下载jdk并自行安装,而不是通过源直接安装(apt-get install)1、下载jkd( http://www.oracle.com/technetwork/java/javase/downloads/index.html)1.1 对于32位的系统可以下载以下两个Linux x86版本(uname -a 查看系统版本)1.2 64位系统
2013-10-15 21:49:13 83864 1
原创 java.BigInteger(java表示大整数)
当一个数字非常大时,则肯定无法用基本类型接收,所以最早碰到大数字时往往会使用String类进行接收,然后再采用String类进行接收,然后再采用拆分的方式进行计算,但操作非常麻烦,所以在Java中为了解决这样的难题提供了BigInteger类。BigInteger类表示大整数类,定义在java.math包中,如果在操作时一个整数数据已经超过了最大的类型长度long(64bit),数据就无法装入,此
2013-09-05 14:46:11 9966
转载 一个优秀程序员的成功之道:15个不可忽视的编程好习惯!!~
这是国外程序员Al katib总结的一些编程习惯。1. 动手编码之前,你需要对要编码实现的解决方案有一个正式的或粗略的设计。永远不要在没有任何设计的前提下就开始编码,除非所编代码不重要。2. 优秀的代码文档跟编程语言知识一样重要。在代码源文件中,为每个主要的代码段添加注释,解释代码的基本逻辑。最好注明程序的构建和修改日期,以及修改的原因也是非常有必要的。3. 维护程序的各个
2013-09-05 14:45:19 1528
原创 java读入输出文件字符串
import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOEx
2013-09-05 14:43:14 1626
转载 计算机领域国际会议分区表
分区表1. AREA: Data Bases一区 (332)1. SIGMOD: ACM SIGMOD Conf on Management of Data (78)2. PODS: ACM SIGMOD Conf on Principles of DB Systems(30)3. VLDB: Very Large Data Bases (96)
2013-09-05 14:39:11 11120
原创 Linux(服务器)安装过程
Linux安装过程如下:1. 下载Ubuntu 1204 server ISO:http://mirrors.163.com/ubuntu-releases/12.04.2/ubuntu-12.04.2-server-amd64.iso2. 在Windows中安装『UltraISO』软件,把上面下载的ubuntu-12.04.2-server-amd64.i
2013-09-05 14:35:38 4878
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人