Hadoop
文章平均质量分 94
tswisdom
这个作者很懒,什么都没留下…
展开
-
Hadoop WordCount解读
因为最近配置了Hadoop的伪分布式和Hbase和Zookeepr的集群环境。现在正准备研究Hadooop,今天第一个Map/Reduce,启动成功,成就啊。 Java代码 package org.frame.base.hbase.hadoop; import java.io.IOException; import java.util.StringTokenize转载 2012-09-03 11:27:18 · 606 阅读 · 0 评论 -
Zookeeper系列(一)
一、ZooKeeper的背景1.1 认识ZooKeeperZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物,游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物,而不是像走在原始丛林里,心惊胆颤的被动 物所观赏。为了让各种不同的动物呆在它们应该呆的地方,而不是相互串门,或是相互厮杀,就需要动物园管理员按照动物的各种习性加以分类和管理,这样我们才能更加转载 2014-11-26 20:58:14 · 76545 阅读 · 13 评论 -
HIVE NULL 值处理
Sqoop will by default import NULL values as string null. Hive is however using string \N to denote NULL values and therefore predicates dealing with NULL (like IS NULL) will not work correctly. You sh原创 2014-11-21 15:18:14 · 6250 阅读 · 0 评论 -
HIVE CLOB字段处理
在将数据由oracle数据库导入到Hive时,发现原创 2014-11-21 20:31:06 · 10189 阅读 · 0 评论 -
hive metadata 存mysql 注释中文乱码的有关
hive metadata 存mysql 注释中文乱码的问题hive metadata 存mysql 注释中文乱码的问题########### hive 中文乱码的问题#############解决方案:数据库编码为latin1.将一下表的字段(涉及注释的字段都改)编码设定为UTF81、然后进入数据库执行以下5条SQL语句:(1)修改表字段注解和表注转载 2014-11-24 14:00:54 · 3838 阅读 · 0 评论 -
Flume-NG中用到的一些好的文章
玖疯的博客:http://www.cnblogs.com/lxf20061900/category/565688.html原创 2014-11-25 20:36:42 · 980 阅读 · 1 评论 -
Sqoop导入关系数据库到Hive
Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。转载 2014-11-24 23:46:12 · 14875 阅读 · 0 评论 -
Flume-ng生产环境实践(二)flume-ng 测试过程中event丢失部分body数据
经过测试发现,当source端单event的body数据大于16字节后,输出到目标只剩下16字节。进过多源代码的分析,发现,源代码中进行了截取。在LoggerSink.java中:if (event != null) { if (logger.isInfoEnabled()) { logger.info("Event: " + EventHe转载 2014-11-25 16:06:32 · 3664 阅读 · 2 评论 -
Flume-ng生产环境实践(三)实现文件sink,按照固定格式目录输出
应用场景:需要实时收集多台服务器的nginx日志到一台机器。收集完成结果存放需要按天生成文件夹,按每5分钟生成文件,比如2012年12月29日12点26分的日志,需要放到/data/log/20121229/log-1225-对应的文件中。自己实现了类似flume-og和flume-ng的hdfs-sink的文件sink。使用的时候配置如下:agent.source转载 2014-11-25 16:09:35 · 15921 阅读 · 2 评论 -
ssh-keygen+ssh-copy-id 在linux下实现ssh无密码登录访问
ingram@DN1:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ingram/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same pas原创 2014-12-12 14:46:23 · 633 阅读 · 0 评论 -
hadoop streaming
[hadoop@master test]$ hadoop jar /home/hadoop/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -infoWarning: $HADOOP_HOME is deprecated.14/12/15 14:06:32 ERROR streaming.StreamJob: Mi原创 2014-12-15 14:07:43 · 3374 阅读 · 0 评论 -
MapReduce实现大矩阵乘法
转自http://blog.csdn.net/xyilu/article/details/9066973引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至20转载 2015-08-27 20:51:32 · 609 阅读 · 0 评论 -
Hadoop分布式缓存(DistributedCache)
package h2.cux.examples.distributedcache;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.net.URI;import java.util.Scanner;import org.apache.had转载 2015-08-28 17:20:49 · 3349 阅读 · 0 评论 -
HBase数据迁移(1)-使用HBase的API中的Put方法
使用HBase的API中的Put是最直接的方法,用法也很容易学习。但针对大部分情况,它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时,效率问题体现得尤为明显。待处理的数据量一般都是巨大的,这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前,你就该思考如何将所有能够很好的将数据转移进HBase,否则之后可能面临严重的性能问题。HBase有一个名为 b转载 2015-11-17 23:53:19 · 1898 阅读 · 0 评论 -
HBase数据迁移(3)-自己编写MapReduce Job导入数据
尽管在将文本文件加载入HBase时importtsv工具十分高效,但在许多情况下为了完全控制整个加载过程,你可能更想自己编写MapReduce Job向HBase导入数据。例如在你希望加载其他格式文件时不能使用importtsv工具。HBase提供TableOutputFormat 用于在MapReduce Job中向HBase的表中写入数据。你也可以使用HFileOutputFormat转载 2015-11-18 00:00:40 · 1240 阅读 · 0 评论 -
基于HBase的海量数据实时查询系统设计与实现
点击打开链接http://www.doc88.com/p-7445439907872.html原创 2015-11-18 00:40:15 · 10014 阅读 · 0 评论 -
HBase与MongDB等NoSQL数据库对比
转载请注明出处: jiq•钦's technical Blog - 季义钦一、开篇淘宝之前使用的存储层架构一直是MySQL数据库,配合以MongDB,Tair等存储。MySQL由于开源,并且生态系统良好,本身拥有分库分表等多种解决方案,因此很长一段时间内都满足淘宝大量业务的需求。但是由于业务的多样化发展,有越来越多的业务系统的需求开始发生了变化。一般来说有以下几类变化转载 2015-11-18 00:08:30 · 5572 阅读 · 0 评论 -
HBase数据迁移(2)- 使用bulk load 工具从TSV文件中导入数据
HBase提供importtsv工具支持从TSV文件中将数据导入HBase。使用该工具将文本数据加载至HBase十分高效,因为它是通过MapReduce Job来实施导入的。哪怕是要从现有的关系型数据库中加载数据,也可以先将数据导入文本文件中,然后使用importtsv 工具导入HBase。在导入海量数据时,这个方式运行的很好,因为导出数据比在关系型数据库中执行SQL快很多。importtsv转载 2015-11-17 23:56:46 · 879 阅读 · 0 评论 -
zookeeper 学习文档
http://www.uml.org.cn/wenzhang/artsearch.asp?curpage=1原创 2014-11-26 21:00:55 · 2695 阅读 · 0 评论 -
ZooKeeper系列(三)
前面虽然配置了集群模式的Zookeeper,但是为了方面学建议在伪分布式模式的Zookeeper学习Zookeeper的shell命令。一、Zookeeper的四字命令Zookeeper支持某些特定的四字命令字母与其的交互。他们大多数是查询命令,用来获取Zookeeper服务的当前状态及相关信息。用户在客户端可以通过telnet或nc向Zookeeper提交相应的命令。Zookee转载 2014-11-26 20:59:47 · 5700 阅读 · 0 评论 -
Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析
Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析成堆的数据如何变成信息金矿Andrew Glover, 作家和开发人员, Beacon50简介: Apache Hadoop 是目前分析分布式数据的首选工具,和大多数 Java™ 2.0 技术一样,是可扩展的。从 Hadoop 的 MapReduce 编程建模开始,学习如何用它来分转载 2012-09-17 09:45:39 · 2455 阅读 · 0 评论 -
Matchers
Matchers is an external addition to the JUnit framework. Matchers were added by the framework called Hamcrest. JUnit 4.8.2 ships with Hamcrest internally, so you don't have to download it, and add it转载 2012-09-17 15:48:36 · 755 阅读 · 0 评论 -
assertThat详解
assertThat详解 ---来自http://yingfangming.blog.163.com/blog/static/165802470201092964526324/㈠ 一般匹配符1、allOf 匹配符表明如果接下来的所有条件必须都成立测试才通过,相当于“与”(&&) assertThat( testedNumber, allOf(转载 2012-09-17 15:49:24 · 8155 阅读 · 0 评论 -
Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题
显示报错no tasktracker to stop ,no datanode to stop 问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux 默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoo转载 2014-11-19 17:59:00 · 861 阅读 · 0 评论 -
Hive中实现group concat功能(不用udf)
Sql代码 hive> desc t; OK id string str string Time taken: 0.249 seconds hive> select * from t; OK 1 A 1 B 2 C 2 D Time taken: 0.209 seconds hive转载 2014-11-20 14:40:12 · 12322 阅读 · 1 评论 -
Hive CLI
Variables and Properties -- 设置 hive 变量[sql] view plaincopyprint?$ hive --define foo=bar hive> set foo; foo=bar; hive> set hivevar:foo; hivevar:foo=bar;转载 2014-11-20 15:34:18 · 1746 阅读 · 0 评论 -
HIVE NULL 值
hive中NULL默认是以'\N'表示的示例:建表:hive> create table null_test_1(id INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';OKTime taken: 0.275 seconds插入数据:$ cat /home/work/data转载 2014-11-20 11:33:36 · 1934 阅读 · 0 评论 -
hive中的Lateral View
通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。因为直接在SELECT使用UDTF会存在限制,即仅仅能包含单个字段,如下:hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01;FAILED: Error in semantic analysis转载 2014-11-20 12:20:00 · 720 阅读 · 0 评论 -
hive udtf的使用
原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many mapin转载 2014-11-20 12:21:43 · 1598 阅读 · 0 评论 -
Hive+UDTF简单示例
UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping)的需求。 我们来看一个简单的例子。 现在有一个名为studentScore.txt的文本,里面的内容如下: A 90转载 2014-11-20 12:23:18 · 722 阅读 · 0 评论 -
Flume-ng生产环境实践(四)实现log格式化interceptor
续上篇,由于filesink中需要使用/data/log/%{dayStr}/log-%{hourStr}%{minStr}-这样文件格式的,为了使file-sink能使用%{dayStr}这样的标签,需要在数据传输过程中,给event的header中添加对应的键值对。在flume-ng中提供了很方便的方式:Interceptor以下为实现的interceptor,首先使用正则表达式匹配ngi转载 2014-11-25 16:12:05 · 5688 阅读 · 0 评论 -
hive.cli
hive.cli.errors.ignore=falsehive.cli.pretty.output.num.cols=-1hive.cli.print.current.db=falsehive.cli.print.header=falsehive.cli.prompt=easyHome转载 2014-11-20 15:28:14 · 1473 阅读 · 0 评论 -
canal部署与实例运行
1、准备:github:https://github.com/alibaba/canal里面有包括canal的文档,server端 client端的 例子 源码包等等。2、canal概述:canal是应阿里巴巴存在杭州和美国的双机房部署,存在跨机房同步的业务需求而提出的。早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期转载 2014-11-25 11:31:59 · 2554 阅读 · 0 评论 -
搭建并运行基于HA模式的canal
阅读本文之前建议阅读这篇文章,canal单机模式:http://blog.csdn.net/hackerwin7/article/details/37923607机器准备:mysql:192.168.213.41:3306canal server:192.168.213.42:11111 、192.168.213.43:11111zookeeper:19转载 2014-11-25 11:42:31 · 1913 阅读 · 0 评论 -
Flume-ng生产环境实践(一)Flume-ng生产环境编译
1.首先在系统上安装jdk1.6+和mvn3.X: $ java -version java version "1.6.0_31"Java(TM) SE Runtime Environment (build 1.6.0_31-b04-415-11M3635)Java HotSpot(TM) 64-Bit Server VM (bu转载 2014-11-25 16:04:03 · 1454 阅读 · 0 评论 -
ZooKeeper系列(四)
一、配置服务配置服务是分布式应用所需要的基本服务之一,它使集群中的机器可以共享配置信息中那些公共的部分。简单地说,ZooKeeper可以作为一个具有高可用性的配置存储器,允许分布式应用的参与者检索和更新配置文件。使用ZooKeeper中的观察机制,可以建立一个活跃的配置服务,使那些感兴趣的客户端能够获得配置信息修改的通知。下面来编写一个这样的服务。我们通过两个假设来简化所需实现的服转载 2014-11-26 20:56:38 · 11951 阅读 · 1 评论 -
ZooKeeper系列(二)
Zookeeper的环境配置一、Zookeeper的搭建方式Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。1.单机模式:Zookeeper只运行在一台服务器上,适合测试环境;2.伪集群模式:就是在一台物理机上运行多个Zookeeper 实例。3.集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体转载 2014-11-26 20:57:33 · 8546 阅读 · 0 评论 -
cdh启用kerberos配置
以下为客户端配置:[root@test-vm1 ~]# vi /etc/krb5.conf# Configuration snippets may be placed in this directory as wellincludedir /etc/krb5.conf.d/[logging] default = FILE:/var/log/krb5libs.log kdc = F...原创 2019-02-16 09:10:42 · 1281 阅读 · 0 评论