tylgoodluck-CSDN博客

转载 [转]Docker 和 Kubernetes 从听过到略懂：给程序员的旋风教程

转自：https://1byte.io/developer-guide-to-docker-and-kubernetes/早在 Docker 正式发布几个月的时候，LeanCloud就开始在生产环境大规模使用 Docker，在过去几年里 Docker 的技术栈支撑了我们主要的后端架构。这是一篇写给程序员的 Docker 和 Kubernetes 教程，目的是让熟悉技术的读者在尽可能短的时间内...

2019-03-27 14:23:27 166

转载 Apache Pig的一些基础概念及用法总结（1）

本文转自 http://www.codelast.com/ 本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程（由Google搜索可知），文中的大量实例都是作者Darran Zhang（website: codelast.com）在工作、学习中总结的经验或解决的问题，并且添加了较为详

2013-08-21 15:47:01 972

转载脱离Hadoop的环境下使用Lzo

脱离Hadoop的环境下使用Lzo 转自http://heipark.iteye.com/blog/1605721 hadoop lzo动机：希望通过Java API将日志行压缩到lzo文件，然后上传到HDFS。因为kevinweil-hadoop-lzo提供了LzopOutpuStream，所以这一切很容易实现，需要注意的是该jar包依赖native code和lzo本身。

2012-07-24 16:34:42 874

转载 oracle常用经典SQL查询

oracle常用经典SQL查询转自 http://space.itpub.net/13165828/viewspace-6040381、查看表空间的名称及大小 select t.tablespace_name, round(sum(bytes/(1024*1024)),0) ts_sizefrom dba_tablespaces t, dba_data_files d

2012-05-30 00:12:26 534

转载 kafka 消息订阅发布系统设计介绍

Kafka消息订阅发布系统设计介绍转自: http://blog.csdn.net/dahaifeiyu/article/details/6455989Kafka学习总结一、Kafaka简介Kafka是一个分布式的消息发布-订阅系统。它的特性如下：l 通过在O(1)的磁盘数据结构上提供消息持久化，对于即使数以TB的消息存储也能够保持长时间的稳定性能。l 高吞吐

2012-03-12 14:39:12 1631

转载 namenode 内部关键数据结构简介

转自http://blog.csdn.net/zyj8170/article/details/70298921 概述本文档目的在于对namenode中各种关键的数据结构进行剖析和解释，以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包括对namenode中Namenode和FSNameSystem的程序代码结构，FSDirectory，BlocksMap， Corr

2012-03-07 21:14:34 552

转载 lzo的安装及在hadoop中的配置 .

转自 http://blog.csdn.net/zyj8170/article/details/6598082一、前提1、gcc的安装：yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装2、ant的安装：安装略，最好1.8.2及以上版本，并设置好环境变量在第三步需要用到ant二、lzo的安装wget http://www

2012-03-07 21:11:21 2131

转载 hadoop FAQ

转自 http://blog.csdn.net/zyj8170/article/details/60379341：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲

2012-03-07 21:04:27 736

转载 Oracle 索引详解

Oracle 索引详解本文转自》》 http://blog.csdn.net/tianlesoftware/article/details/5347098一．索引介绍 1.1 索引的创建语法： CREATE UNIUQE | BITMAP INDEX . ON . ( | ASC | DESC, |

2012-03-03 20:19:39 392

原创 ssh_exchange_identification: Connection closed by remote host

今天，在win7下安装了Cygwin并安装了openssh, 在cygwin下配置并启动sshd，启动成功，但是（ssh localhost）连接时出现： ssh_exchange_identification: Connection closed by remote host 试着访问 ssh 127.0.0.1 也不行，但是访问主机名可以--- ssh 主机名也不可以

2012-02-23 13:45:07 751

转载又一个NoSQL知识清单

本文转自：http://blog.nosqlfan.com/html/1647.html下面介绍的一篇长文，对NoSQL的各个方面做了系统深入的介绍，提纲明晰，知识量大，非常值得一看。下面是文章索引：1 Core NoSQL1.1 Amazon’s Dynamo1.2 Cassandra — A Decentralized Structu

2012-02-01 09:57:47 411

转载【转贴】Google的十大核心技术

【转贴】Google的十大核心技术来源：http://www.chinakdd.com/portal.php?mod=view&aid=125347本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前，首先会对Google的核心技术和其整体架构进行分析，以帮助大家之后更好地理解Googl

2012-02-01 09:04:08 519

转载 hadoop使用lzo压缩文件笔记 (CDH3u1)

hadoop使用lzo压缩文件笔记 (CDH3u1) 转自http://heipark.iteye.com/blog/1172759 博客分类：hadoopLZO性能CompressionFileSize (GB)Compression Time (s)Decompression Time (s)Nonesome_l

2011-12-09 12:53:25 858

转载 Map/Reduce中Join查询实现

本文转自 http://bbs.hadoopor.com/thread-2146-1-1.htmlMap/Reduce中Join查询实现一、背景早在8月份的时候，我就做了一些MR的Join查询，但是发现回北京之后，2个月不用，居然有点生疏，所以今天早上又花时间好好看了一下，顺便写下这个文档，以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoo

2011-12-08 13:05:01 667

转载 Hadoop Map/Reduce教程

Hadoop Map/Reduce教程目的先决条件概述输入与输出例子：WordCount v1.0源代码用法解释 Map/Reduce - 用户界面核心功能描述Mapper Reducer Partitioner Reporter OutputCollector 作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入

2011-12-06 10:06:54 813

原创 suse 下vsftp 搭建

大多数较新的系统采用的是xinetd超级服务守护进程。使用“vi /etc/xinetd.d/vsftpd” 看一下它的内容，如下： disable = no socket_type = streamwait = no如果“/etc/vsftpd.conf”中的有选项为“listen=YES”,注销它最后，重启xinetd，命令如下：$ /etc/init.d/

2011-12-05 20:29:51 1846

转载 hadoop的reducer输出多个文件

转自：http://coderplay.iteye.com/blog/191188hadoop的reducer输出多个文件有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件，同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValu

2011-12-05 13:05:47 892

原创 hive元数据存储在mysql 字符集utf8 修改

表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子，当mysql的字符集设置成utf8的时候使用hive会有问题(com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes）所以当h

2011-11-24 22:14:20 3541

转载 hive 中简单介绍分区表

转自http://blog.csdn.net/jiedushi/article/details/6778521hive中简单介绍分区表hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：

2011-11-24 09:50:14 895

原创 SSH 无密码连接问题

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys在root下使用，可以不用密码登录了，但是在其他用户处理后，提示还是需要密码这个是权限问题 chmod 600 authorized_keys 便可

2011-11-24 08:44:30 534

转载 hive 分区表

hive sql分区表转自: http://blog.csdn.net/lpxuan151009/article/details/6653514hive> create table lpx_partition_test(global_id int, company_name string)partitioned by (stat_date string, province s

2011-11-23 22:37:42 1870

转载 HIVE中UDTF编写和使用

HIVE中UDTF编写和使用1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initi

2011-11-23 10:06:59 2227

转载 Hive UDAF 开发

本文转自：http://richiehu.blog.51cto.com/2093113/386113Hive进行UDAF开发，相对要比UDF复杂一些，不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apa

2011-11-22 22:23:31 747

转载 Hive UDF 开发

转自 http://richiehu.blog.51cto.com/2093113/386112 Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。 Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：package com.hrj.hive.udf;

2011-11-22 22:21:06 478

转载 HBase 集群配置

HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的，并适合于存储超大型松散数据。HBase适合于实时，随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。本文环境与上一讲--完全分布式Hadoop集群配置一致。OS是Ubuntu Server 10.04，HBase版本是0.20.6。 HRegio

2011-11-18 20:08:08 681

转载 python常用时间操作

python常用时间操作分类： Python 2010-08-30 10:07 146人阅读评论(0)收藏举报我们先导入必须用到的一个module>>> import time设置一个时间的格式，下面会用到>>>ISOTIMEFORMAT=’%Y-%m-%d %X’看一下当前的时间，和其他很多语言相似这是从epoch（1970 年 1 月 1

2011-11-18 09:51:38 506

原创 hive sql 用法

DDL Operations创建表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件（正则表达

2011-11-17 22:27:07 3043

转载基于mapreduce的 Hadoop join 实现分析(二)

基于mapreduce的Hadoop join实现分析(二)标签： hadoop mapreduce join 2009-11-22 17:00上次我们讨论了基于mapreduce的join的实现,在上次讨论的最后,我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List数据结构保存了所有的某个外键的对应的所

2011-11-17 09:46:44 644

转载基于mapreduce的Hadoop join实现分析(一)

基于mapreduce的Hadoop join实现分析(一) 对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现.我们来看一个例子,现在有两组数据:一

2011-11-17 09:44:33 701

转载 hadoop 两表join处理方法

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.

2011-11-17 09:36:27 927

转载 Hive 的可拓展性

文章转自： http://www.chinaovo.net/hive/295.htm Hive 是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本：不管什么语言，利用 stdin

2011-11-17 09:24:15 880

原创 RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x

RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x1、安装MySQL 5.5.x的yum源：rpm -Uvh http://repo.webtatic.com/yum/centos/5/latest.rpm2、安装MySQL客户端的支持包：yum install libmysqlclient15 --enablerepo=webtatic

2011-11-16 23:37:36 411

转载 hive使用mysql保存metastore

文章转自 http://blog.csdn.net/jiedushi/article/details/6579956 hive使用mysql保存metastoreHive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库： 1）ingle User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。 2）Mu

2011-11-16 22:45:57 651

转载 Scribe+HDFS日志收集系统安装方法

Scribe+HDFS日志收集系统安装方法1、概述Scribe是facebook开源的日志收集系统，可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理，具体可参见日文日志：http://d.hatena.ne.jp/tagomoris/touch/2011020

2011-11-16 22:37:21 460

转载 hbase 架构

[翻译]HbaseArchitectureHBase架构原文地址：http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture本文来自博客园逖靖寒 http://gpcuster.cnblogs.com关于HBase，有一篇非常容易入门的文章，可以参考：Understanding HBase and BigTable介绍

2011-11-16 22:24:58 526

转载 hadoop IPC/RPC 机制

在分布式应用程序中使用Hadoop IPC/RPC原文地址：http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications本文来自于：http://gpcuster.cnblogs.com译文：关于Hadoop IPC我们一起来了解Hadoop IPC，这是一个内进程间通信（I

2011-11-16 22:21:17 1370

转载深入剖析Hadoop程序日志

深入剖析Hadoop程序日志前提本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。正文本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录，我们可以看到如下文件：在启动

2011-11-16 22:17:42 496

转载 hadoop 并发编程

转自 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html 分析 WordCount 程序我们先来看看 Hadoop 自带的示例程序 WordCount，这个程序用于统计一批文本文件中单词出现的频率，完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。

2011-11-16 21:56:09 2015

原创 sqoop 配置及导入导出操作

1、下载相应软件下面是CDH3和SQOOP 1.2.0的下载地址http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz其中sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20

2011-11-16 21:06:42 2958

转载开源日志系统

转自 http://dongxicheng.org/search-engine/log-systems/开源日志系统比较 1. 背景介绍许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支

2011-11-16 10:14:26 606

netty in action

postgrel 8.4 文档

MyEclipse6.0 速成

orcale 好书

空空如也