2014年11月_Markooa

12月 11月 10月 08月 06月 05月 03月 01月

转载 Flume NG：Flume 发展史上的第一次革命

Flume 作为 cloudera 开发的实时日志收集系统，已经受到越来越多的关注。比如 IBM BigInsights 已经将 Flume 作为产品的一部分。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤

2014-11-28 15:04:56 661

转载服务器运维监控项总结

服务器需监控的对象进行分类,可以归纳为硬件资源类、服务资源类和自定义的资源类。1、硬件资源类包括:CPU使用率CPU负载内存使用率磁盘空间使用率磁盘I/O网络流量系统进程数2、服务资源类包括(Linux平台上运行的所有服务): Erlang 性能监控： Erlang进程数监控 Erlang内存监控 cpu使用率 A

2014-11-28 09:35:13 3864

原创 Hadoop数据传输工具sqoop（四）Java远程调用Sqoop进行数据传输

1、Maven配置 org.apache.sqoop sqoop 1.4.52、Java代码@Servicepublic class SqoopTestServiceImpl implements SqoopTestService{ //测试代码 public static void main(String[] args) { tr

2014-11-26 19:19:45 7956 5

转载 Hadoop数据传输工具sqoop（三）用Sqoop导入数据到HIVE

一、安装Hive1.1下载解压下载apache-hive-0.13.1-bin.tar.gz$ tar zxvf apache-hive-0.13.1-bin.tar.gz1.2配置环境变量在/etc/profile中添加：export HIVE_HOME=/usr/local/app/hadoop/hive-0.13.1-binexport PATH=$HIVE_H

2014-11-26 15:01:05 1214

转载 Hadoop数据传输工具sqoop（二）工具命令

1. 概述本文档主要对SQOOP的使用进行了说明，参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义，本文档几乎所有参数使用说明都经过了我的实际验证而得到。2. codegen将关系数据库表映射为一个java文件、java class类、以及相关的jar包，作用主要是两方面：1、将数据库表映射为一个Java文件，在该Java文件

2014-11-26 14:13:50 1001

原创用 Hadoop 进行分布式并行编程（四）Java远程调用Hadoop服务

前面几篇都是在Hadoop环境中，使用Hadoop工具进行MapReduce计算。本篇介绍在Java应用中如何利用Hadoop服务进行MapReduce计算。一、安装配置Hadoop1、解压Hadoop$tar zxvf hadoop-1.2.1-bin.tar.gz /usr/local/app/hadoop2、配置Hadoop环境修改/etc/profile信息：e

2014-11-26 11:57:41 1033 1

转载 Hadoop数据传输工具sqoop（一）简介

http://blog.csdn.net/yfkiss/article/details/8700480http://blog.csdn.net/dc_726/article/details/9069871http://sqoop.apache.org/docs/1.99.1/Installation.htmlSqoop Documentation (v1.4.5)

2014-11-20 20:24:31 933

转载 B/S结构浏览器的全屏解决方案

现在很多公共场所使用了一体式触摸查询机，其实就是一台用触摸屏操作的电脑（键盘和鼠标都锁在一体机里面了~v~）！一般里面的查询软件都是专业开发的应用程序，如果我们想换成B/S结构的WEB程序，首先要解决的是浏览器的全屏问题，因为公共查询不能让用户随便转到其它网址，不能随便退出浏览器。多数触摸屏专用浏览器都是收费的，当然它也提供了很多实用的功能。这里介绍的是不使用任何专用浏览器的

2014-11-17 23:19:12 2033

转载用 Hadoop 进行分布式并行编程（三）部署到分布式环境

转自：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/

2014-11-07 12:03:38 1868

转载用 Hadoop 进行分布式并行编程（二）程序实例与分析

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何针对一个具体的并行计算任务，基于 Hadoop 编写程序，如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。

2014-11-07 11:49:12 3586

转载用 Hadoop 进行分布式并行编程（一）基本概念与安装部署

基本概念与安装部署

2014-11-07 09:22:49 1059

转载 Hadoop初探：用MapReduce 进行大数据分析

Google 在 2001 年发布图像搜索功能时，只有 2.5 亿索引图像，不到 10 年，这个巨大的搜索功能已经可以检索超过 100 亿个图像了，每分钟有 35 小时的内容上传到 YouTube。据称，Twitter 每天平均处理 5500 万 tweet。今年早些时候，搜索功能每天记录 6 亿条查询记录。这就是我们讨论大数据的意义所在。关于本系列从 Java 技术首次亮相以来，J

2014-11-05 16:03:31 1095

转载 ZooKeeper实战（五）基于zookeeper的分布式锁实现

工作中需要写一个定时任务,由于是集群环境,自然而然想到需要通过分布式锁来保证单台执行..相信大家都会想到使用zk来实现对应的分布式锁.下面就简单介绍一下几种实现。准备工作有几个帮助类,先把代码放上来ZKClient 对zk的操作做了一个简单的封装

2014-11-04 14:02:25 549

转载 ZooKeeper实战（四）处理Zookeeper的session过期问题

Session连接Zookeeper客户端和服务端维持一个长连接，每隔10s向服务端发送一个心跳，服务端返回客户端一个响应。这就是一个Session连接，拥有全局唯一的session id。Session连接通常是一直有效，如果因为网络原因断开了连接，客户端会使用相同的session id进行重连。由于服务端保留了session的各种状态，尤其是各种瞬时节点是否删除依赖于session是否

2014-11-04 13:57:18 8551

转载 ZooKeeper实战（三）基于ZooKeeper的分布式Session实现

1．认识ZooKeeperZooKeeper——“动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，这样我们才能更加放心安全的观赏动物。回到我们企业级应用系统中，随着

2014-11-03 13:54:33 584