2012年03月_jiedushi

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 CentOS 5 centos 6下安装Axel插件加速yum下载

1 下载axel插件的rpm包下载地址 http://pkgs.repoforge.org/axel/如果为centos 5 64位系统的话使用http://pkgs.repoforge.org/axel/axel-2.4-1.el5.rf.x86_64.rpm如果为centos 6 64位系统使用 http://pkgs.repoforge.org/axel/axel-2

2012-03-29 13:21:27 10020

转载 python统计日志ip访问数脚本

import retudou@Gyyxf=open("/tmp/a.log","r")arr={}lines = f.readlines()for line in lines: ipaddress=re.compile(r'^#(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))') mat

2012-03-28 16:14:58 2874

原创 hive中的udf时间函数用法

1 from_unixtime函数用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format]) 返回值为string例如 hive>select from_unixtime(1326988805,'yyyyMMddHH') from test;如果为字段转换的话，则为 select from_unix

2012-03-28 09:41:41 41496

转载 Hadoop Streaming 实战：传递环境变量

环境变量可以理解程序运行的系统环境，用户可以对自己的运行环境进行定制，其方法就是修改相应的系统环境变量。用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息，而streaming程序不能使用JAVA编程接口，因此，streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下：

2012-03-26 13:39:04 2872

转载 Hadoop Streaming 实战：文件分发与打包

如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在，则首先需要将这些文件分发到集群上才能成功进行计算。Hadoop提供了自动分发文件和压缩包的机制，只需要在启动Streaming作业时配置相应的参数。 1. –file 将本地文件分发到计算结点 2. –cacheFile 文件已经存放在HDFS中，希望计算时在每个计算节点上将文件当作本地文件处理

2012-03-26 13:26:52 2481

转载 Hadoop Streaming 实战：多路输出

streaming把reduce的输出作为一个任务的最终输出，输出文件形如： part-00000、part-00001…… 文件个数为reduce任务个数但是，有的时候，我们有多路输出的需求，eg：一部分数据作为下一个mapreduce任务的输入，另一部分数据直接供下游任务抓取，此时，我们就需要使用reduce的多路输出。在hadoop-v2-u7中

2012-03-26 13:21:59 13191

转载 Hadoop Streaming 实战：输出文件分割

我们知道，Hadoop streaming框架默认情况下会以'/t’作为分隔符，将每行第一个'\t’之前的部分作为key，其余内容作为value，如果没有'\t’分隔符，则整行作为key；这个key/tvalue对又作为reduce的输入。hadoop 提供配置供用户自主设置分隔符。 -D stream.map.output.field.separator ：设置map输出中key

2012-03-26 13:10:21 5747 1

转载 python字符串与数字的转化

数字变为字符串 str(4)字符串变为数字 string.atoi(s,[，base]) //base为进制基数浮点数转换 string.atof(s)字符转数字 int(str)

2012-03-24 15:47:00 145989

原创 python实现用hadoop的map/reduce对web日志进行统计

日志格式61.160.241.107 - - [23/Aug/2011:22:00:00 +0800] "GET /map.php?gid=38&sid=75&user=14717213&roleid=490711&time=1314108000&user_yx=736959&levafee11f0d1bacbfecbb631192 HTTP/1.1" 200 5 "-" "Java/1.6.

2012-03-24 14:14:47 4595

转载 hive中的静态分区与动态分区

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：create table partition_test(member_id string,name string)partition

2012-03-15 10:45:28 27732 3

原创 hive中对lzo压缩文件建立索引实现并行处理

1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL T

2012-03-14 13:06:55 7554

原创 sqoop并行导入数据

使用sqoop工具进行数据导入导出中可以进行并行导入的方法例如从mysql数据库中导入到hive中可以执行sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1其中-m 1 参数代表的含义是使用多

2012-03-09 13:02:58 12373

转载 Sqoop export and import commands

Sqoop Import Examples:Sqoop Import :- Import data from a relational database management system (RDBMS) such as MySQL or Oracle into the Hadoop Distributed File System (HDFS) and its subprojects

2012-03-09 12:41:29 5350

转载 HIVE中map，array使用

例如：我想把数组[1,2,3] 和数组 ["a","b","c"] 导入到table1中create table table1 (a array, b array) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',';load data local inpath

2012-03-08 18:03:07 21629

转载 Redhat Linux NFS配置

NFS简介：NFS是网络文件系统的简写（network file system），主要用在linux或unix环境中，是有sun公司开发，并于1984年推出的一个RPC服务系统。NFS功能介绍：他可以将多个目录或者单个目录进行发布，例如我们在网刻系统的时候可以用NFS来共享光盘镜像，NFS是以发布目录的方式将文件进行发布，而客户端是以挂载的方式进行访问。客户端可以节省本

2012-03-08 16:23:46 3402

转载 Eclipse启动错误（JVM terminated. exit code 1）解决方法

在进入Eclipse时弹出下面的错误：JVM terminated. Exit code=1C:\WINNT\system32\javaw.exe-Xms40m-Xmx512m-jar C:\eclipse-SDK-3.2-win32\eclipse\startup.jar-os win32-ws win32-arch x86-launcher C:\ecl

2012-03-07 15:04:13 5327

原创使用hive读取hbase数据

Mapr框架安装完后，安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下：1．将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4

2012-03-06 16:15:17 23249 4

转载正则表达式口诀

正则其实也势利，削尖头来把钱揣；（指开始符号^和结尾符号$）特殊符号认不了，弄个倒杠来引路；（指\. \*等特殊符号）倒杠后面跟小w，数字字母来表示；（\w跟数字字母;\d跟数字）倒杠后面跟小d，只有数字来表示；倒杠后面跟小a，报警符号嘀一声；倒杠后面跟小b，单词分界或退格；倒杠后面跟小t，制表符号很明了；倒杠后面跟小r，回车符号知道了；倒杠后面跟

2012-03-05 21:56:58 930

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口，mutation类中增加timestamp参数，可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212)，mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包，经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

Nginx 不能直接执行外部可执行程序，如果要让 Nginx 支持 CGI，可以考虑安装 nginx-fcgi： wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理，它是免费、快速并且可靠的一种解决方案

2009-08-21

js脚本压缩工具（.net版本）

网页中的js脚本文件比较大的时候可以用这个工具进行压缩，减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印，这不仅使"会设计网页就会做网页套打"成为可能，也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件，解决了web客户端精确打印，批量打印，打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人