自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东杰书屋

多年大数据工作总结,个人的大数据导航https://bigdata.djbook.top/

  • 博客(18)
  • 资源 (12)
  • 收藏
  • 关注

原创 CentOS 5 centos 6下安装Axel插件加速yum下载

1  下载axel插件的rpm包下载地址 http://pkgs.repoforge.org/axel/如果为centos 5  64位系统的话 使用http://pkgs.repoforge.org/axel/axel-2.4-1.el5.rf.x86_64.rpm如果为centos 6  64位系统  使用 http://pkgs.repoforge.org/axel/axel-2

2012-03-29 13:21:27 10020

转载 python统计日志ip访问数脚本

import retudou@Gyyxf=open("/tmp/a.log","r")arr={}lines = f.readlines()for line in lines: ipaddress=re.compile(r'^#(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))') mat

2012-03-28 16:14:58 2874

原创 hive中的udf时间函数用法

1  from_unixtime函数  用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format])   返回值为string例如  hive>select from_unixtime(1326988805,'yyyyMMddHH') from test;如果为字段转换的话,则为 select from_unix

2012-03-28 09:41:41 41496

转载 Hadoop Streaming 实战: 传递环境变量

环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。        用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下:

2012-03-26 13:39:04 2872

转载 Hadoop Streaming 实战: 文件分发与打包

如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作业时配置相应的参数。 1. –file 将本地文件分发到计算结点 2. –cacheFile 文件已经存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理

2012-03-26 13:26:52 2481

转载 Hadoop Streaming 实战: 多路输出

streaming把reduce的输出作为一个任务的最终输出,输出文件形如:       part-00000、part-00001……       文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。在hadoop-v2-u7中

2012-03-26 13:21:59 13191

转载 Hadoop Streaming 实战: 输出文件分割

我们知道,Hadoop streaming框架默认情况下会以'/t’作为分隔符,将每行第一个'\t’之前的部分作为key,其余内容作为value,如果没有'\t’分隔符,则整行作为key;这个key/tvalue对又作为reduce的输入。hadoop 提供配置供用户自主设置分隔符。       -D stream.map.output.field.separator :设置map输出中key

2012-03-26 13:10:21 5747 1

转载 python字符串与数字的转化

数字变为字符串 str(4)字符串变为数字 string.atoi(s,[,base]) //base为进制基数浮点数转换 string.atof(s)字符转数字 int(str)

2012-03-24 15:47:00 145989

原创 python实现用hadoop的map/reduce对web日志进行统计

日志格式61.160.241.107 - - [23/Aug/2011:22:00:00 +0800] "GET /map.php?gid=38&sid=75&user=14717213&roleid=490711&time=1314108000&user_yx=736959&levafee11f0d1bacbfecbb631192 HTTP/1.1" 200 5 "-" "Java/1.6.

2012-03-24 14:14:47 4595

转载 hive中的静态分区与动态分区

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition

2012-03-15 10:45:28 27732 3

原创 hive中对lzo压缩文件建立索引实现并行处理

1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL T

2012-03-14 13:06:55 7554

原创 sqoop并行导入数据

使用sqoop工具进行数据导入导出中可以进行并行导入的方法例如  从mysql数据库中导入到hive中可以执行sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1其中-m 1 参数代表的含义是使用多

2012-03-09 13:02:58 12373

转载 Sqoop export and import commands

Sqoop Import Examples:Sqoop Import :- Import data from a relational database management system (RDBMS) such as MySQL or Oracle into the Hadoop Distributed File System (HDFS) and its subprojects

2012-03-09 12:41:29 5350

转载 HIVE中map,array使用

例如:我想把 数组[1,2,3] 和 数组 ["a","b","c"] 导入到table1中create table table1 (a array, b array) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',';load data local inpath

2012-03-08 18:03:07 21629

转载 Redhat Linux NFS配置

NFS简介:NFS是网络文件系统的简写(network file system),主要用在linux或unix环境中,是有sun公司开发,并于1984年推出的一个RPC服务系统。NFS功能介绍:他可以将多个目录或者单个目录进行发布,例如我们在网刻系统的时候可以用NFS来共享光盘镜像,NFS是以发布目录的方式将文件进行发布,而客户端是以挂载的方式进行访问。客户端可以节省本

2012-03-08 16:23:46 3402

转载 Eclipse启动错误(JVM terminated. exit code 1)解决方法

在进入Eclipse时弹出下面的错误:JVM terminated. Exit code=1C:\WINNT\system32\javaw.exe-Xms40m-Xmx512m-jar C:\eclipse-SDK-3.2-win32\eclipse\startup.jar-os win32-ws win32-arch x86-launcher C:\ecl

2012-03-07 15:04:13 5327

原创 使用hive读取hbase数据

Mapr框架安装完后,安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下:1. 将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4

2012-03-06 16:15:17 23249 4

转载 正则表达式口诀

正则其实也势利,削尖头来把钱揣; (指开始符号^和结尾符号$)特殊符号认不了,弄个倒杠来引路; (指\. \*等特殊符号)倒杠后面跟小w, 数字字母来表示; (\w跟数字字母;\d跟数字)倒杠后面跟小d, 只有数字来表示;倒杠后面跟小a, 报警符号嘀一声;倒杠后面跟小b, 单词分界或退格;倒杠后面跟小t, 制表符号很明了;倒杠后面跟小r, 回车符号知道了;倒杠后面跟

2012-03-05 21:56:58 930

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口,mutation类中增加timestamp参数,可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212),mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包,经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

nginx-fcgi.txt

Nginx 不能直接执行外部可执行程序,如果要让 Nginx 支持 CGI,可以考虑安装 nginx-fcgi: wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载 所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供 高可用性 、负载均衡 以及基于TCP和HTTP应用的代理,它是免费、快速 并且可靠的一种解决方案

2009-08-21

js脚本压缩工具(.net版本)

网页中的js脚本文件比较大的时候可以用这个工具进行压缩,减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印,这不仅使"会设计网页就会做网页套打"成为可能,也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件,解决了web客户端精确打印,批量打印,打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除