- 博客(18)
- 资源 (12)
- 收藏
- 关注
原创 CentOS 5 centos 6下安装Axel插件加速yum下载
1 下载axel插件的rpm包下载地址 http://pkgs.repoforge.org/axel/如果为centos 5 64位系统的话 使用http://pkgs.repoforge.org/axel/axel-2.4-1.el5.rf.x86_64.rpm如果为centos 6 64位系统 使用 http://pkgs.repoforge.org/axel/axel-2
2012-03-29 13:21:27 10020
转载 python统计日志ip访问数脚本
import retudou@Gyyxf=open("/tmp/a.log","r")arr={}lines = f.readlines()for line in lines: ipaddress=re.compile(r'^#(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))') mat
2012-03-28 16:14:58 2874
原创 hive中的udf时间函数用法
1 from_unixtime函数 用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format]) 返回值为string例如 hive>select from_unixtime(1326988805,'yyyyMMddHH') from test;如果为字段转换的话,则为 select from_unix
2012-03-28 09:41:41 41496
转载 Hadoop Streaming 实战: 传递环境变量
环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下:
2012-03-26 13:39:04 2872
转载 Hadoop Streaming 实战: 文件分发与打包
如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作业时配置相应的参数。 1. –file 将本地文件分发到计算结点 2. –cacheFile 文件已经存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理
2012-03-26 13:26:52 2481
转载 Hadoop Streaming 实战: 多路输出
streaming把reduce的输出作为一个任务的最终输出,输出文件形如: part-00000、part-00001…… 文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。在hadoop-v2-u7中
2012-03-26 13:21:59 13191
转载 Hadoop Streaming 实战: 输出文件分割
我们知道,Hadoop streaming框架默认情况下会以'/t’作为分隔符,将每行第一个'\t’之前的部分作为key,其余内容作为value,如果没有'\t’分隔符,则整行作为key;这个key/tvalue对又作为reduce的输入。hadoop 提供配置供用户自主设置分隔符。 -D stream.map.output.field.separator :设置map输出中key
2012-03-26 13:10:21 5747 1
转载 python字符串与数字的转化
数字变为字符串 str(4)字符串变为数字 string.atoi(s,[,base]) //base为进制基数浮点数转换 string.atof(s)字符转数字 int(str)
2012-03-24 15:47:00 145989
原创 python实现用hadoop的map/reduce对web日志进行统计
日志格式61.160.241.107 - - [23/Aug/2011:22:00:00 +0800] "GET /map.php?gid=38&sid=75&user=14717213&roleid=490711&time=1314108000&user_yx=736959&levafee11f0d1bacbfecbb631192 HTTP/1.1" 200 5 "-" "Java/1.6.
2012-03-24 14:14:47 4595
转载 hive中的静态分区与动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition
2012-03-15 10:45:28 27732 3
原创 hive中对lzo压缩文件建立索引实现并行处理
1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL T
2012-03-14 13:06:55 7554
原创 sqoop并行导入数据
使用sqoop工具进行数据导入导出中可以进行并行导入的方法例如 从mysql数据库中导入到hive中可以执行sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1其中-m 1 参数代表的含义是使用多
2012-03-09 13:02:58 12373
转载 Sqoop export and import commands
Sqoop Import Examples:Sqoop Import :- Import data from a relational database management system (RDBMS) such as MySQL or Oracle into the Hadoop Distributed File System (HDFS) and its subprojects
2012-03-09 12:41:29 5350
转载 HIVE中map,array使用
例如:我想把 数组[1,2,3] 和 数组 ["a","b","c"] 导入到table1中create table table1 (a array, b array) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',';load data local inpath
2012-03-08 18:03:07 21629
转载 Redhat Linux NFS配置
NFS简介:NFS是网络文件系统的简写(network file system),主要用在linux或unix环境中,是有sun公司开发,并于1984年推出的一个RPC服务系统。NFS功能介绍:他可以将多个目录或者单个目录进行发布,例如我们在网刻系统的时候可以用NFS来共享光盘镜像,NFS是以发布目录的方式将文件进行发布,而客户端是以挂载的方式进行访问。客户端可以节省本
2012-03-08 16:23:46 3402
转载 Eclipse启动错误(JVM terminated. exit code 1)解决方法
在进入Eclipse时弹出下面的错误:JVM terminated. Exit code=1C:\WINNT\system32\javaw.exe-Xms40m-Xmx512m-jar C:\eclipse-SDK-3.2-win32\eclipse\startup.jar-os win32-ws win32-arch x86-launcher C:\ecl
2012-03-07 15:04:13 5327
原创 使用hive读取hbase数据
Mapr框架安装完后,安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下:1. 将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4
2012-03-06 16:15:17 23249 4
转载 正则表达式口诀
正则其实也势利,削尖头来把钱揣; (指开始符号^和结尾符号$)特殊符号认不了,弄个倒杠来引路; (指\. \*等特殊符号)倒杠后面跟小w, 数字字母来表示; (\w跟数字字母;\d跟数字)倒杠后面跟小d, 只有数字来表示;倒杠后面跟小a, 报警符号嘀一声;倒杠后面跟小b, 单词分界或退格;倒杠后面跟小t, 制表符号很明了;倒杠后面跟小r, 回车符号知道了;倒杠后面跟
2012-03-05 21:56:58 930
hbase 0.90 cloudera3u3修改包
2013-01-25
nginx-fcgi.txt
2011-03-16
打印页面插件
2007-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人