2014年12月_数据文字工作者

原创数组最值操作

思路：1，需要进行比较，并定义变量记录住每次比较后较大的值。2，对数组中的元素进行遍历取出，和变量中记录的元素进行比较。如果遍历到的元素大于变量中记录的元素，就用变量记录住该大的值。3，遍历结果，该变量记录就是最大值。class ArrayDemo4 {//遍历数组的功能。public static int getMax(int[] arr){int max

2014-12-31 17:11:16 393

转载 kafka2.9.2的分布式集群安装和demo(java api)测试

一、什么是kafka?　　kafka是LinkedIn开发并开源的一个分布式MQ系统，现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式（能将消息分散到不同的节点上）MQ。Kafka仅仅由7000行Scala编写，据了解，Kafka每秒可以生产约25万消息（50 MB），每秒处理55万消息（110 MB）。　　kafka目前支持多种客户端语言：java，p

2014-12-30 14:52:33 1145

转载大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

做软件开发的都知道模块化思想，这样设计的原因有两方面：一方面是可以模块化，功能划分更加清晰，从“数据采集--数据接入--流失计算--数据输出/存储” 1）.数据采集负责从各节点上实时采集数据，选用cloudera的flume来实现2）.数据接入由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka

2014-12-30 14:49:50 695

转载 linux下创建用户

linux下创建用户(一）Linux 系统是一个多用户多任务的分时操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪，并控制他们对系统资源的访问；另一方面也可以帮助用户组织文件，并为用户提供安全性保护。每个用户账号都拥有一个惟一的用户名和各自的口令。用户在登录时键入正确的用户名

2014-12-23 13:27:09 380

转载 flume参考文档

Flume配置文件(flume-site.conf)1、 watchdogwatchdog.restarts.maxwatchdog每分钟重启的最大数???2、 common nodeflume.config.heartbeat.periodnode发送心跳周期,默认5000(毫秒)

2014-12-23 10:40:23 545

转载 flume安装和使用flume1.5传输数据(日志)到hadoop2.2

安装flume1.51.下载安装包（1）官网下载apache-flume-1.5.0-bin.tar.gzapache-flume-1.5.0-src.tar.gz（2）百度网盘下载链接: http://pan.baidu.com/s/1dDip8RZ 密码: 268r我们走到这一步，我们会想到一个问题，我的电脑是32位的，不知道能否安装？如果我的电

2014-12-23 10:31:19 1119

转载 Flume内置channel,source,sink三组件介绍

Flume还是一个非常不错的日志收集系统的，其设计理念非常易用，简洁。并且是一个开源项目，基于Java语言开发，可以进行一些自定义的功能开发。运行Flume时，机器必须安装装JDK6.0以上的版本，并且，Flume目前只有Linux系统的启动脚本，没有Windows环境的启动脚本。 Flume主要由3个重要的组件购成： Source:完成对日志

2014-12-23 10:20:51 808

原创 Hive简介

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer

2014-12-17 16:55:11 376

原创 HBase简介

HBase– Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协调工具。1.HBase(NoSQL)的数据模型1.1 表

2014-12-17 10:58:46 543

原创对于Zookeeper的理解

Zookeeper是Google 的Chubby一个开源的实现，是Hadoop 的分布式协调服务。它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper包括一个Leader和多个follower。为什么使用Zookeeper？»大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程（如资源、任务分配等）。»目前，大

2014-12-17 10:09:31 1513

原创 MpaReduce中的分组排序——注意点

在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类，作为k2，才能参与比较。分组时也是按照k2进行比较的。

2014-12-16 12:37:48 540

原创字符串转换成各种数据类型的方法

long long_num=Long.parseLong(str);int int_num=Integer.parseInt(str);short short_num=Short.parseShort(str);byte byte_num=Byte.parseByte(str);double double_num=Double.parseDouble(s

2014-12-15 18:35:58 539

转载 BufferedReader和BufferedWriter

1. java.io.BufferedReader和java.io.BufferedWriter类各拥有8192字符的缓冲区。当BufferedReader在读取文本文件时，会先尽量从文件中读入字符数据并置入缓冲区，而之后若使用read()方法，会先从缓冲区中进行读取。如果缓冲区数据不足，才会再从文件中读取，使用BufferedWriter时，写入的数据并不会先输出到目的地，而是先存储至缓冲区中。

2014-12-15 18:34:45 783

原创 MapReduce程序打包运行必须执行的秘密方法

job.setJarByClass(WordCountApp.class);

2014-12-15 14:59:23 767

原创 MapReduce输入的处理类

1、FileInputFormat:FileInputFormat是所有以文件作为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。2、InputFormat：InputFormat 负责处理MR的输入部分.有三个作

2014-12-15 14:58:13 573

原创 Hadoop序列化

序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。Hadoop序列化特点：1.紧凑：高效使用存储空间。2.快速：读写数据的额外开销小3.可扩展：可透明地读取老格式的数据4.互操作：支持多语言的交互Hadoop的序列化格式：Writ

2014-12-15 14:57:07 457

转载 DecimalFormat用法

DecimalFormat 是 NumberFormat 的一个具体子类，用于格式化十进制数字。DecimalFormat 包含一个模式和一组符号符号含义： 0 一个数字 # 一个数字，不包括 0 . 小数的分隔符的占位符 , 分组分隔符的占位符 ; 分隔格式。 - 缺省负数前缀。 % 乘以 100 和作为百分比显

2014-12-15 10:29:59 382

原创 Java.lang.Long.parseLong()方法

将一个字符串转换成数字的。package com.yiibai;import java.lang.*;public class LongDemo { public static void main(String[] args) { // parses the string argument long a = Long.parseLong("1452");

2014-12-11 19:18:48 9010

原创 java类型与Hadoop类型之间的转换

java基本类型与Hadoop常见基本类型的对照Long LongWritableInteger IntWritableBoolean BooleanWritableStringTextjava类型如何转化为hadoop基本类型？调用hadoop类型的构造方法，或者调用set()方法。new LongWritable(123L);

2014-12-11 19:05:42 3355

原创 MapReduce处理CSV格式文件的的一个实例

我们从网上下载一个cvs格式的数据文件：http://earthquake.usgs.gov/research/data/pager/EXPO_CAT_2007_12.csvcvs是以逗号进行列分割的数据文件。使用opencvs可以很方便的处理cvs格式的数据。opencvs可以从sourceforge上下载。opencvs可以把一个string以逗号进行分割成一个string

2014-12-11 18:27:18 10923 4

原创在java中，getClass().getSimpleName();是什麽？

getClass()获得当前对象的类型...java中有Class类,用以描述类型信息.如用下面的语句Class theClass="hello".getClass();得到的就是字符串的类型. getSimpleName()返回源代码中给出的底层类的简称。public class sample{ public static void main(String[] args){

2014-12-11 17:10:20 4260

原创 hadoop context.write

context.write(字段1, value);context.write(字段2, value);这样输出就是以字段1为key的数据字段2为key的数据即在一个mapper里面输出两条数据。

2014-12-11 16:49:40 9522

原创 for each循环

1、class ForEach { public static void main(String args[]) { int nums[] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; int sum = 0; // 使用for-each 类型的循环求和 for(int x : nums) {

2014-12-11 16:24:40 1839

原创 java 中final关键字用在函数前有什么作用?

final方法：用final修饰的方法不允许修改，也不允许任何从此类继承的类覆盖此方法，但仍可以继承此方法。另外有一种被称为inline的机制，它会使你在调用final方法时，直接将方法主体插入到调用处，而不是进行例行的方法调用，例如保存断点，压栈等，这样可能会使你的程序效率有所提高，然而当你的方法主体非常庞大时，或你在多处调用此方法，那么你的调用主体代码便会迅速膨胀，可能反而会影响效率，所

2014-12-11 14:47:29 661

转载 Kafka Consumer端的一些解惑

最近一直忙着各种设计和文档，终于有时间来更新一点儿关于kafka的东西。之前有一篇文章讲述的是kafka Producer端的程序，也就是日志的生产者，这部分比较容易理解，业务系统将运行日志或者业务日志发送到broker中，由broker代为存储。那讲的是如何收集日志，今天要写的是如何获取日志，然后再做相关的处理。之前写过kafka是讲日志按照topic的形式存储，一个topic会按照pa

2014-12-11 14:23:10 860

转载 Kafka开发环境搭建

如果你要利用代码来跑kafka的应用，那你最好先把官网给出的example先在单机环境和分布式环境下跑通，然后再逐步将原有的consumer、producer和broker替换成自己写的代码。所以在阅读这篇文章前你需要具备以下前提：1. 简单了解kafka功能，理解kafka的分布式原理2. 能在分布式环境下成功运行—topic test。如果你还没有完成上述两个前提，

2014-12-11 14:05:44 486

转载 Kafka broker配置介绍

这部分内容对了解系统和提高软件性能都有很大的帮助，kafka官网上也给出了比较详细的配置详单，但是我们还是直接从代码来看broker到底有哪些配置需要我们去了解的，配置都有英文注释，所以每一部分是干什么的就不翻译了，都能看懂：?123456789101112

2014-12-11 14:00:37 607

转载 Kafka实现细节（下）

有关存储方面，我们要引进几个概念：l Partition：同一个topic下可以设置多个partition，目的是为了提高并行处理的能力。可以将同一个topic下的message存储到不同的partition下。l Offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.ka

2014-12-11 12:30:15 469

转载 Kafka实现细节（上）

我们先看kafka的设计元素：1. 通常来说，kafka的使用是为了消息的持久化（persistent messages）2. 吞吐量是kafka设计的主要目标3. 关于消费的状态被记录为consumer的一部分，而不是server。这点稍微解释下，这里的server还是只broker，谁消费了多少数据都记录在消费者自己手中，不存在broker中。按理说，消费记录也是一个日

2014-12-11 12:16:45 545

转载 Kafka分布式环境搭建

这篇文章将介绍如何搭建kafka环境，我们会从单机版开始，然后逐渐往分布式扩展。单机版的搭建官网上就有，比较容易实现，这里我就简单介绍下即可，而分布式的搭建官网却没有描述，我们最终的目的还是用分布式来解决问题，所以这部分会是重点。Kafka的中文文档并不多，所以我们尽量详细点儿写。要交会你搭建分布式其实很简单，手把手的教程大不了我录个视频就好了，可我觉得那不是走这条路的方式。只有真正了解原

2014-12-11 11:51:10 461

原创分布式消息系统Kafka初步

Kafka是分布式消息系统，在实际应用中被大量的用于日志系统。在kafka官网上对kafka的定义叫：A distributed publish-subscribe messaging system。publish-subscribe是发布和订阅的意思，所以更准确的说kafka是一个消息订阅和发布的系统。我们将消息的发布（publish）暂时称作producer，将消息的订阅（subscrib

2014-12-11 11:18:03 709

转载 Zookeeper伪分布式安装

一：环境centosjdk1.6zookeeper-3.4.3 下载二：配置将解压出来的zookeeper 复制三份，这里分别叫做 zookeeper-1，zookeeper-2和zookeeper-3。1. zookeeper-1 配置：创建data目录：/home/java2000_wl/hadoop

2014-12-09 19:02:57 498

转载 mapreduce中实现对hbase中表数据的添加

参考网址：http://www.javabloger.com/article/hadoop-mapreduce-hbase.html 根据参考网址中的小实例，自己亲自实现了一下，记录一下自己对该程序的一些理解。实例：先将数据文件上传到HDFS，然后用MapReduce进行处理，将处理后的数据插入到hbase中。代码如下：首先是Mapp

2014-12-08 18:21:20 546

转载 phoenix实战（hadoop2、hbase0.96）

版本：phoenix：2.2.2，可以下载源码（https://github.com/forcedotcom/phoenix/tree/port-0.96）自己编译，或者从这里下载（http://download.csdn.net/detail/fansy1990/7146479、http://download.csdn.net/detail/fansy1990/7146501）。

2014-12-02 15:29:40 690

转载 HBase查询引擎——Phoenix的使用

介绍：Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。更多参考官网：http://phoenix.apache.org/命令行：Sqlline安装：1、将phoenix-3.0.0-in

2014-12-02 14:23:41 4031

转载快速理解 Phoenix : SQL on HBASE

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/更多云计算相关项目快速理解文档 http://blog.csdn.net/colorant/article/details/8255910==是什么 == 目标Sco

2014-12-02 14:05:45 1086

原创声明构造方法,可以使用private访问修饰符吗?

构造函数是用于初始化对象用的，将构造函数私有化了之后，new对象时，对象不能访问构造函数，会导致对象初始化失败。

2014-12-02 11:38:21 17153 2

原创 “=”和“equals()”的区别

“=” 用于比较两个的值是否相等。"equals()" 方法，用于比较两个对象的内容是否一样。

2014-12-01 17:26:25 430

转载 JAVA中堆和栈的区别

在函数中定义的一些基本类型的变量和对象的引用变量都在函数的栈内存中分配。当在一段代码块定义一个变量时，Java就在栈中为这个变量分配内存空间，当超过变量的作用域后，Java会自动释放掉为该变量所分配的内存空间，该内存空间可以立即被另作他用。堆内存用来存放由new创建的对象和数组。在堆中分配的内存，由Java虚拟机的

2014-12-01 15:30:16 351

华为数据之道知识总结.xmind

数据治理知识体系.xmind

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

《医学信息决策与支持系统》题库

空空如也