自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东杰书屋

多年大数据工作总结,个人的大数据导航https://bigdata.djbook.top/

  • 博客(18)
  • 资源 (12)
  • 收藏
  • 关注

原创 利用eclipse编写自定义hive udf函数

在做日志分析的过程中,用到了hadoop框架中的hive,不过有些日志处理用hive中的函数处理显得力不从心,就需要用udf来进行扩展处理了1  在eclipse中新建java project   hiveudf   然后新建class  package(com.afan)

2011-08-29 13:53:30 8053 1

转载 Hadoop常见问题及解决办法

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。       /etc/security/limits.conf

2011-08-18 17:03:00 16004 1

转载 Hadoop集群中增加新节点

Hadoop集群中增加新节点向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点

2011-08-18 16:58:17 6097

原创 用hive分析多服务器合并日志问题总结

在用hive做日志分析的过程中遇到个问题例如将4台服务器日志合并如果原始日志为.gz压缩格式的话 用cat 1.gz 2.gz 3.gz 4.gz>all.gz方法合并日志,然后导入到hdfs中用hive进行统计分析那么结果就会显示错误,统计的结果只是1.gz中的日志

2011-08-15 14:20:57 1331

转载 awk的多文件处理

关于awk的多文件处理:awk的数据输入有两个来源,标准输入和文件,后一种方式支持多个文件,如1、shell的Pathname Expansion方式:awk '{...}'  *.txt      #  *.txt先被shell解释,替换成当前目录下的所有*.txt

2011-08-15 11:00:49 1092

转载 awk的类sql数据处理

工作中经常处理文本数据,以前经常接触db2数据库,最近在学习awk的过程中发现awk处理数据的强大,可谓无所不能!下面讲的就算awk对sql语句统计数据的模拟。一、先讲讲sql的单表操作,对应awk的单文件处理。    测试环境:sco unix + db2,数据

2011-08-15 11:00:02 1046

原创 cloudera hadoop集群内lzo的安装与配置

操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4  安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖  配置lzo的文件:core-site.xml、mapred-site.xml大致步骤:1)安装和更新gcc、ant2)在各个节点安装lzo3)安装lzo编码/解码器4)修改

2011-08-12 16:02:31 3499

转载 Linux操作系统下运行命令时Ctrl+C和Ctrl+Z的作用及恢复

命令运行时使用CTRL+C,强制终止当前进程 命令运行时使用CTRL+Z,强制当前进程转为后台,并使之挂起(暂停).  1. 使进程恢复运行(后台)  (1)使用命令bg  Example:  zuii@zuii-desktop:~/unp/tcpclis

2011-08-12 11:52:09 2128

转载 LVS负载均衡的三种模式和八种算法总结

三种LVS负载均衡模式调度器的实现技术中,IP负载均衡技术是效率最高的,IP虚拟服务器软件(IPVS)是在linux内核中实现的。LVS负载均衡模式---1.NAT模式NAT用法本来是因为网络IP地址不足而把内部保留IP地址通过映射转换成公网地址的一种上网

2011-08-11 11:41:17 6447 2

转载 Linux(Centos)配置OpenSSH无密码登陆

最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理

2011-08-09 16:09:58 8495

转载 tar:从压缩包中解压出指定文件

如果你下载了一个压缩包,虽然本身不是很大,但是解压后会很大;可是你并不会去看里面所有的文件,而是只看具体的某一个或几个文件而已,这时你的磁盘空间有很有限,于是你很想只解压指定的文件,于是下面命令就可以用上了。1. tar -ztf xx.tar.gz | grep file_

2011-08-09 13:09:37 12317

转载 Ganglia安装详解(CentOS_5.5_Final版)

1. 安装rrdtool 1.1. 安装依赖包 Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.r

2011-08-08 16:29:42 3070

转载 一个适用于CentOS下的Redis启动脚本

下面是一个Shell脚本,用于管理Redis进程(启动,停止,重启),如果你在使用Redis,这个脚本可供参考。#!/bin/sh## redis - this script starts and stops the redis-server daemon## c

2011-08-08 09:13:03 3191

原创 利用sqoop将hive数据导入导出数据到mysql

运行环境  centos 5.6   hadoop  hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2

2011-08-05 15:05:38 45233 5

转载 hadoop hive sql语法解释

DDL Operations创建内部表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建内部表并创建分区dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 创建外部表 (指定hdfs目录路径)hive>create ex

2011-08-04 16:10:00 7104

转载 在Hive中创建索引

create table TBL_FACT_SYMBIAN_PACKET(PROVICE_FK  INT,DATE_FK  INT,MODEL_FK  INT,COUNTRY_FK  INT,NETWORK_FK  INT,OSLAG_FK  INT,OS_FK  INT,NQ_

2011-08-04 15:46:05 8073 2

转载 Hive 中的日志

日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-lo

2011-08-04 15:44:34 22923

转载 Hive中的数据分区

首先认识什么是分区Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更下的数据集。1. 如何定义分区,创建分区 hive> create table test(name string,sex int) partitioned by (birth string, age string);Time tak

2011-08-04 15:41:21 9041 2

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口,mutation类中增加timestamp参数,可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212),mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包,经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

nginx-fcgi.txt

Nginx 不能直接执行外部可执行程序,如果要让 Nginx 支持 CGI,可以考虑安装 nginx-fcgi: wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载 所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供 高可用性 、负载均衡 以及基于TCP和HTTP应用的代理,它是免费、快速 并且可靠的一种解决方案

2009-08-21

js脚本压缩工具(.net版本)

网页中的js脚本文件比较大的时候可以用这个工具进行压缩,减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印,这不仅使"会设计网页就会做网页套打"成为可能,也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件,解决了web客户端精确打印,批量打印,打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除