自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (4)
  • 收藏
  • 关注

转载 [转]Docker 和 Kubernetes 从听过到略懂:给程序员的旋风教程

转自:https://1byte.io/developer-guide-to-docker-and-kubernetes/早在 Docker 正式发布几个月的时候,LeanCloud就开始在生产环境大规模使用 Docker,在过去几年里 Docker 的技术栈支撑了我们主要的后端架构。这是一篇写给程序员的 Docker 和 Kubernetes 教程,目的是让熟悉技术的读者在尽可能短的时间内...

2019-03-27 14:23:27 166

转载 Apache Pig的一些基础概念及用法总结(1)

本文转自 http://www.codelast.com/   本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详

2013-08-21 15:47:01 972

转载 脱离Hadoop的环境下使用Lzo

脱离Hadoop的环境下使用Lzo  转自http://heipark.iteye.com/blog/1605721 hadoop lzo动机:希望通过Java API将日志行压缩到lzo文件,然后上传到HDFS。因为kevinweil-hadoop-lzo提供了LzopOutpuStream,所以这一切很容易实现,需要注意的是该jar包依赖native code和lzo本身。

2012-07-24 16:34:42 874

转载 oracle常用经典SQL查询

oracle常用经典SQL查询 转自 http://space.itpub.net/13165828/viewspace-6040381、查看表空间的名称及大小 select t.tablespace_name, round(sum(bytes/(1024*1024)),0) ts_sizefrom dba_tablespaces t, dba_data_files d

2012-05-30 00:12:26 534

转载 kafka 消息订阅发布系统设计介绍

Kafka消息订阅发布系统设计介绍 转自: http://blog.csdn.net/dahaifeiyu/article/details/6455989Kafka学习总结一、Kafaka简介Kafka是一个分布式的消息发布-订阅系统。它的特性如下:l  通过在O(1)的磁盘数据结构上提供消息持久化,对于即使数以TB的消息存储也能够保持长时间的稳定性能。l  高吞吐

2012-03-12 14:39:12 1631

转载 namenode 内部关键数据结构简介

转自http://blog.csdn.net/zyj8170/article/details/70298921 概述 本文档目的在于对namenode中各种关键的数据结构进行剖析和解释,以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包 括对namenode中Namenode和FSNameSystem的程序代码结构,FSDirectory,BlocksMap, Corr

2012-03-07 21:14:34 552

转载 lzo的安装及在hadoop中的配置 .

转自 http://blog.csdn.net/zyj8170/article/details/6598082一、前提1、gcc的安装:yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装2、ant的安装:安装略,最好1.8.2及以上版本,并设置好环境变量 在第三步需要用到ant二、lzo的安装wget http://www

2012-03-07 21:11:21 2131

转载 hadoop FAQ

转自 http://blog.csdn.net/zyj8170/article/details/60379341:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲

2012-03-07 21:04:27 736

转载 Oracle 索引 详解

Oracle 索引 详解 本文转自》》 http://blog.csdn.net/tianlesoftware/article/details/5347098一.索引介绍 1.1 索引的创建语法: CREATE UNIUQE | BITMAP INDEX .      ON .           ( |  ASC | DESC,             |

2012-03-03 20:19:39 392

原创 ssh_exchange_identification: Connection closed by remote host

今天,在win7下安装了Cygwin并安装了openssh, 在cygwin下配置并启动sshd,启动成功,但是(ssh localhost)连接时出现: ssh_exchange_identification: Connection closed by remote host  试着访问 ssh 127.0.0.1 也不行,但是访问主机名可以--- ssh 主机名 也不可以

2012-02-23 13:45:07 751

转载 又一个NoSQL知识清单

本文转自:http://blog.nosqlfan.com/html/1647.html下面介绍的一篇长文,对NoSQL的各个方面做了系统深入的介绍,提纲明晰,知识量大,非常值得一看。下面是文章索引:1 Core NoSQL1.1 Amazon’s Dynamo1.2 Cassandra — A Decentralized Structu

2012-02-01 09:57:47 411

转载 【转贴】Google的十大核心技术

【转贴】Google的十大核心技术 来源:http://www.chinakdd.com/portal.php?mod=view&aid=125347本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Googl

2012-02-01 09:04:08 519

转载 hadoop使用lzo压缩文件笔记 (CDH3u1)

hadoop使用lzo压缩文件笔记 (CDH3u1)  转自http://heipark.iteye.com/blog/1172759 博客分类:hadoopLZO性能CompressionFileSize (GB)Compression Time (s)Decompression Time (s)Nonesome_l

2011-12-09 12:53:25 858

转载 Map/Reduce中Join查询实现

本文转自 http://bbs.hadoopor.com/thread-2146-1-1.htmlMap/Reduce中Join查询实现一、背景早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoo

2011-12-08 13:05:01 667

转载 Hadoop Map/Reduce教程

Hadoop Map/Reduce教程目的 先决条件 概述 输入与输出 例子:WordCount v1.0源代码 用法 解释 Map/Reduce - 用户界面核心功能描述Mapper Reducer Partitioner Reporter OutputCollector 作业配置 任务的执行和环境作业的提交与监控作业的控制 作业的输入

2011-12-06 10:06:54 813

原创 suse 下vsftp 搭建

大多数较新的系统采用的是xinetd超级服务守护进程。使用“vi /etc/xinetd.d/vsftpd” 看一下它的内容,如下: disable = no socket_type = streamwait = no如果“/etc/vsftpd.conf”中的有选项为“listen=YES”,注销它最后,重启xinetd,命令如下:$ /etc/init.d/

2011-12-05 20:29:51 1846

转载 hadoop的reducer输出多个文件

转自:http://coderplay.iteye.com/blog/191188hadoop的reducer输出多个文件 有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValu

2011-12-05 13:05:47 892

原创 hive元数据存储在mysql 字符集utf8 修改

表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes)所以当h

2011-11-24 22:14:20 3541

转载 hive 中简单介绍分区表

转自http://blog.csdn.net/jiedushi/article/details/6778521hive中简单介绍分区表hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:

2011-11-24 09:50:14 895

原创 SSH 无密码连接问题

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys在root下使用,可以不用密码登录了,但是在其他用户处理后,提示还是需要密码 这个是权限问题 chmod 600 authorized_keys  便可

2011-11-24 08:44:30 534

转载 hive 分区表

hive sql分区表 转自: http://blog.csdn.net/lpxuan151009/article/details/6653514hive> create table lpx_partition_test(global_id int, company_name string)partitioned by (stat_date string, province s

2011-11-23 22:37:42 1870

转载 HIVE中UDTF编写和使用

HIVE中UDTF编写和使用1. UDTF介绍UDTF(User-Defined Table-Generating Functions)  用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initi

2011-11-23 10:06:59 2227

转载 Hive UDAF 开发

本文转自:http://richiehu.blog.51cto.com/2093113/386113Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apa

2011-11-22 22:23:31 747

转载 Hive UDF 开发

转自 http://richiehu.blog.51cto.com/2093113/386112     Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。    Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.hrj.hive.udf;

2011-11-22 22:21:06 478

转载 HBase 集群配置

HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。    本文环境与上一讲--完全分布式Hadoop集群配置一致。OS是Ubuntu Server 10.04,HBase版本是0.20.6。         HRegio

2011-11-18 20:08:08 681

转载 python常用时间操作

python常用时间操作分类: Python 2010-08-30 10:07 146人阅读 评论(0)收藏 举报 我们先导入必须用到的一个module>>> import time设置一个时间的格式,下面会用到>>>ISOTIMEFORMAT=’%Y-%m-%d %X’看一下当前的时间,和其他很多语言相似这是从epoch(1970 年 1 月 1

2011-11-18 09:51:38 506

原创 hive sql 用法

DDL Operations创建表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件(正则表达

2011-11-17 22:27:07 3043

转载 基于mapreduce的 Hadoop join 实现分析(二)

基于mapreduce的Hadoop join实现分析(二)标签: hadoop mapreduce join 2009-11-22 17:00上次我们讨论了基于mapreduce的join的实现,在上次讨论的最后,我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List数据结构保存了所有的某个外键的对应的所

2011-11-17 09:46:44 644

转载 基于mapreduce的Hadoop join实现分析(一)

基于mapreduce的Hadoop join实现分析(一) 对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现.我们来看一个例子,现在有两组数据:一

2011-11-17 09:44:33 701

转载 hadoop 两表join处理方法

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.

2011-11-17 09:36:27 927

转载 Hive 的可拓展性

文章转自: http://www.chinaovo.net/hive/295.htm Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin

2011-11-17 09:24:15 880

原创 RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x

RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x1、安装MySQL 5.5.x的yum源:rpm -Uvh http://repo.webtatic.com/yum/centos/5/latest.rpm2、安装MySQL客户端的支持包:yum install libmysqlclient15 --enablerepo=webtatic

2011-11-16 23:37:36 411

转载 hive使用mysql保存metastore

文章转自 http://blog.csdn.net/jiedushi/article/details/6579956 hive使用mysql保存metastoreHive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: 1)ingle User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。 2)Mu

2011-11-16 22:45:57 651

转载 Scribe+HDFS日志收集系统安装方法

Scribe+HDFS日志收集系统安装方法1、概述Scribe是facebook开源的日志收集系统,可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理,具体可参见日文日志:http://d.hatena.ne.jp/tagomoris/touch/2011020

2011-11-16 22:37:21 460

转载 hbase 架构

[翻译]HbaseArchitectureHBase架构原文地址:http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture本文来自 博客园 逖靖寒 http://gpcuster.cnblogs.com关于HBase,有一篇非常容易入门的文章,可以参考:Understanding HBase and BigTable介绍

2011-11-16 22:24:58 526

转载 hadoop IPC/RPC 机制

在分布式应用程序中使用Hadoop IPC/RPC原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications本文来自于:http://gpcuster.cnblogs.com译文:关于Hadoop IPC我们一起来了解Hadoop IPC,这是一个内进程间通信(I

2011-11-16 22:21:17 1370

转载 深入剖析Hadoop程序日志

深入剖析Hadoop程序日志  前提本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。 正文本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动

2011-11-16 22:17:42 496

转载 hadoop 并发编程

转自 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html 分析 WordCount 程序 我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。

2011-11-16 21:56:09 2015

原创 sqoop 配置及导入导出操作

1、下载相应软件下面是CDH3和SQOOP 1.2.0的下载地址http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz其中sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20

2011-11-16 21:06:42 2958

转载 开源日志系统

转自 http://dongxicheng.org/search-engine/log-systems/开源日志系统比较    1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支

2011-11-16 10:14:26 606

netty in action

netty in acion 不错,直的很不错

2015-09-16

postgrel 8.4 文档

postgrel 文档,不可多得的好文档 ,

2011-08-18

MyEclipse6.0 速成

一本非常好的MyEclipse 6.0教程

2008-06-20

orcale 好书

sfdsfsfsf 一本好书

2008-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除