- 博客(18)
- 资源 (12)
- 收藏
- 关注
原创 利用eclipse编写自定义hive udf函数
在做日志分析的过程中,用到了hadoop框架中的hive,不过有些日志处理用hive中的函数处理显得力不从心,就需要用udf来进行扩展处理了1 在eclipse中新建java project hiveudf 然后新建class package(com.afan)
2011-08-29 13:53:30 8078 1
转载 Hadoop常见问题及解决办法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.conf
2011-08-18 17:03:00 16072 1
转载 Hadoop集群中增加新节点
Hadoop集群中增加新节点向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点
2011-08-18 16:58:17 6135
原创 用hive分析多服务器合并日志问题总结
在用hive做日志分析的过程中遇到个问题例如将4台服务器日志合并如果原始日志为.gz压缩格式的话 用cat 1.gz 2.gz 3.gz 4.gz>all.gz方法合并日志,然后导入到hdfs中用hive进行统计分析那么结果就会显示错误,统计的结果只是1.gz中的日志
2011-08-15 14:20:57 1336
转载 awk的多文件处理
关于awk的多文件处理:awk的数据输入有两个来源,标准输入和文件,后一种方式支持多个文件,如1、shell的Pathname Expansion方式:awk '{...}' *.txt # *.txt先被shell解释,替换成当前目录下的所有*.txt
2011-08-15 11:00:49 1112
转载 awk的类sql数据处理
工作中经常处理文本数据,以前经常接触db2数据库,最近在学习awk的过程中发现awk处理数据的强大,可谓无所不能!下面讲的就算awk对sql语句统计数据的模拟。一、先讲讲sql的单表操作,对应awk的单文件处理。 测试环境:sco unix + db2,数据
2011-08-15 11:00:02 1055
原创 cloudera hadoop集群内lzo的安装与配置
操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖 配置lzo的文件:core-site.xml、mapred-site.xml大致步骤:1)安装和更新gcc、ant2)在各个节点安装lzo3)安装lzo编码/解码器4)修改
2011-08-12 16:02:31 3512
转载 Linux操作系统下运行命令时Ctrl+C和Ctrl+Z的作用及恢复
命令运行时使用CTRL+C,强制终止当前进程 命令运行时使用CTRL+Z,强制当前进程转为后台,并使之挂起(暂停). 1. 使进程恢复运行(后台) (1)使用命令bg Example: zuii@zuii-desktop:~/unp/tcpclis
2011-08-12 11:52:09 2178
转载 LVS负载均衡的三种模式和八种算法总结
三种LVS负载均衡模式调度器的实现技术中,IP负载均衡技术是效率最高的,IP虚拟服务器软件(IPVS)是在linux内核中实现的。LVS负载均衡模式---1.NAT模式NAT用法本来是因为网络IP地址不足而把内部保留IP地址通过映射转换成公网地址的一种上网
2011-08-11 11:41:17 6471 2
转载 Linux(Centos)配置OpenSSH无密码登陆
最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理
2011-08-09 16:09:58 8554
转载 tar:从压缩包中解压出指定文件
如果你下载了一个压缩包,虽然本身不是很大,但是解压后会很大;可是你并不会去看里面所有的文件,而是只看具体的某一个或几个文件而已,这时你的磁盘空间有很有限,于是你很想只解压指定的文件,于是下面命令就可以用上了。1. tar -ztf xx.tar.gz | grep file_
2011-08-09 13:09:37 12385
转载 Ganglia安装详解(CentOS_5.5_Final版)
1. 安装rrdtool 1.1. 安装依赖包 Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.r
2011-08-08 16:29:42 3075
转载 一个适用于CentOS下的Redis启动脚本
下面是一个Shell脚本,用于管理Redis进程(启动,停止,重启),如果你在使用Redis,这个脚本可供参考。#!/bin/sh## redis - this script starts and stops the redis-server daemon## c
2011-08-08 09:13:03 3228
原创 利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2
2011-08-05 15:05:38 45375 5
转载 hadoop hive sql语法解释
DDL Operations创建内部表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建内部表并创建分区dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 创建外部表 (指定hdfs目录路径)hive>create ex
2011-08-04 16:10:00 7142
转载 在Hive中创建索引
create table TBL_FACT_SYMBIAN_PACKET(PROVICE_FK INT,DATE_FK INT,MODEL_FK INT,COUNTRY_FK INT,NETWORK_FK INT,OSLAG_FK INT,OS_FK INT,NQ_
2011-08-04 15:46:05 8088 2
转载 Hive 中的日志
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-lo
2011-08-04 15:44:34 23013
转载 Hive中的数据分区
首先认识什么是分区Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更下的数据集。1. 如何定义分区,创建分区 hive> create table test(name string,sex int) partitioned by (birth string, age string);Time tak
2011-08-04 15:41:21 9056 2
hbase 0.90 cloudera3u3修改包
2013-01-25
nginx-fcgi.txt
2011-03-16
打印页面插件
2007-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人