2011年08月_jiedushi

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创利用eclipse编写自定义hive udf函数

在做日志分析的过程中，用到了hadoop框架中的hive，不过有些日志处理用hive中的函数处理显得力不从心，就需要用udf来进行扩展处理了1 在eclipse中新建java project hiveudf 然后新建class package(com.afan)

2011-08-29 13:53:30 8078 1

转载 Hadoop常见问题及解决办法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits.conf

2011-08-18 17:03:00 16072 1

转载 Hadoop集群中增加新节点

Hadoop集群中增加新节点向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序，配置相应的环境变量2. 新节点上增加用户，从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点

2011-08-18 16:58:17 6135

原创用hive分析多服务器合并日志问题总结

在用hive做日志分析的过程中遇到个问题例如将4台服务器日志合并如果原始日志为.gz压缩格式的话用cat 1.gz 2.gz 3.gz 4.gz>all.gz方法合并日志，然后导入到hdfs中用hive进行统计分析那么结果就会显示错误，统计的结果只是1.gz中的日志

2011-08-15 14:20:57 1336

转载 awk的多文件处理

关于awk的多文件处理：awk的数据输入有两个来源，标准输入和文件，后一种方式支持多个文件，如1、shell的Pathname Expansion方式：awk '{...}' *.txt # *.txt先被shell解释，替换成当前目录下的所有*.txt

2011-08-15 11:00:49 1112

转载 awk的类sql数据处理

工作中经常处理文本数据，以前经常接触db2数据库，最近在学习awk的过程中发现awk处理数据的强大，可谓无所不能！下面讲的就算awk对sql语句统计数据的模拟。一、先讲讲sql的单表操作，对应awk的单文件处理。测试环境：sco unix + db2，数据

2011-08-15 11:00:02 1055

原创 cloudera hadoop集群内lzo的安装与配置

操作系统：CentOS 5.5，Hadoop版本：hadoop-0.20.2-CDH3B4 安装lzo所需要软件包：gcc、ant、lzo、lzo编码/解码器，另外，还需要lzo-devel依赖配置lzo的文件：core-site.xml、mapred-site.xml大致步骤：1）安装和更新gcc、ant2）在各个节点安装lzo3）安装lzo编码/解码器4）修改

2011-08-12 16:02:31 3512

转载 Linux操作系统下运行命令时Ctrl+C和Ctrl+Z的作用及恢复

命令运行时使用CTRL+C，强制终止当前进程命令运行时使用CTRL+Z，强制当前进程转为后台，并使之挂起（暂停）.　　1. 使进程恢复运行(后台)　　(1)使用命令bg　　Example:　　zuii@zuii-desktop:~/unp/tcpclis

2011-08-12 11:52:09 2178

转载 LVS负载均衡的三种模式和八种算法总结

三种LVS负载均衡模式调度器的实现技术中,IP负载均衡技术是效率最高的,IP虚拟服务器软件(IPVS)是在linux内核中实现的｡LVS负载均衡模式---1.NAT模式NAT用法本来是因为网络IP地址不足而把内部保留IP地址通过映射转换成公网地址的一种上网

2011-08-11 11:41:17 6471 2

转载 Linux(Centos)配置OpenSSH无密码登陆

最近在搭建Hadoop环境需要设置无密码登陆，所谓无密码登陆其实是指通过证书认证的方式登陆，使用一种被称为"公私钥"认证的方式来进行ssh登录。在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理

2011-08-09 16:09:58 8554

转载 tar：从压缩包中解压出指定文件

如果你下载了一个压缩包，虽然本身不是很大，但是解压后会很大；可是你并不会去看里面所有的文件，而是只看具体的某一个或几个文件而已，这时你的磁盘空间有很有限，于是你很想只解压指定的文件，于是下面命令就可以用上了。1. tar -ztf xx.tar.gz | grep file_

2011-08-09 13:09:37 12385

转载 Ganglia安装详解（CentOS_5.5_Final版）

1. 安装rrdtool 1.1. 安装依赖包 Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下，以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.r

2011-08-08 16:29:42 3075

转载一个适用于CentOS下的Redis启动脚本

下面是一个Shell脚本，用于管理Redis进程（启动，停止，重启），如果你在使用Redis，这个脚本可供参考。#!/bin/sh## redis - this script starts and stops the redis-server daemon## c

2011-08-08 09:13:03 3228

原创利用sqoop将hive数据导入导出数据到mysql

运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题：sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2

2011-08-05 15:05:38 45375 5

转载 hadoop hive sql语法解释

DDL Operations创建内部表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建内部表并创建分区dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 创建外部表 (指定hdfs目录路径)hive>create ex

2011-08-04 16:10:00 7142

转载在Hive中创建索引

create table TBL_FACT_SYMBIAN_PACKET(PROVICE_FK INT,DATE_FK INT,MODEL_FK INT,COUNTRY_FK INT,NETWORK_FK INT,OSLAG_FK INT,OS_FK INT,NQ_

2011-08-04 15:46:05 8088 2

转载 Hive 中的日志

日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-lo

2011-08-04 15:44:34 23013

转载 Hive中的数据分区

首先认识什么是分区Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成更下的数据集。1. 如何定义分区，创建分区 hive> create table test(name string,sex int) partitioned by (birth string, age string);Time tak

2011-08-04 15:41:21 9056 2

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口，mutation类中增加timestamp参数，可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212)，mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包，经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

Nginx 不能直接执行外部可执行程序，如果要让 Nginx 支持 CGI，可以考虑安装 nginx-fcgi： wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理，它是免费、快速并且可靠的一种解决方案

2009-08-21

js脚本压缩工具（.net版本）

网页中的js脚本文件比较大的时候可以用这个工具进行压缩，减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印，这不仅使"会设计网页就会做网页套打"成为可能，也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件，解决了web客户端精确打印，批量打印，打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人