云计算
文章平均质量分 74
stevie
坚持自己的梦想。。。
展开
-
十道海量数据处理面试题与十个方法大总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据转载 2014-03-27 10:29:14 · 1280 阅读 · 0 评论 -
Hadoop集群破坏试验可靠性验证
测试结果说明: 集群环境说明:主机名IP地址操作系统版本Hadoop版本Hbase版本Zookeeper版本机器用途hadoop1192.168.3.65Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3namenodehadoop2192.16转载 2013-03-25 17:37:12 · 1854 阅读 · 0 评论 -
Hadoop Shell命令(1)
FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme转载 2013-03-25 09:39:13 · 823 阅读 · 0 评论 -
Hadoop Shell命令(1)
FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme原创 2013-03-25 09:38:25 · 764 阅读 · 0 评论 -
将Chukwa 0.5部署在基于Cloudera CDH4的Hadoop集群上
一、使用maven构建基于chukwa 0.5的项目 使用nexus搭建了maven私服,此时如果使用maven构建chukwa 0.5版本时可能在以下两个依赖项遇到问题 thrift-0.2.0.jar hadoop-core-0.20-append-r1056497.pom 这是因为chukwa0.5版本在pom文件中依赖了hbase0转载 2013-03-22 13:50:20 · 1123 阅读 · 0 评论 -
chukwa 介绍
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。Chukwa 是什么? 在印度神话中Chukwa是一只最转载 2013-03-22 13:31:35 · 2744 阅读 · 0 评论 -
Chukwa应用实践
从上一篇 chukwa 的简介中,我们知道 chukwa 为日志分析系统提供了一整套的解决方案,其中包含了数据的生成、收集、排序、去重、分析和展示所需要的几乎所有事情,要扩展 chukwa 以实现自己特殊的需求,是很方便的.本文以 chukwa-0.3.0 为例,阐述在 分布式小组内如何以 chukwa 为基础实现"资源状态图"。概述需求"资源状态图"的需求是很明确的,具体分析如下:转载 2013-03-22 13:33:16 · 1346 阅读 · 0 评论 -
hadoop之Rebalance
HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说,随着数据转载 2013-03-25 13:06:37 · 4616 阅读 · 0 评论 -
zookeeper安装
(PS:我是在本机起三个linux enterprise5.6 redhat 虚拟机安装) 1、安装准备 1、安装JDK 2、下载zookeeper-3.3.1,地址: http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/ # wget http://...... /us原创 2013-03-29 12:32:51 · 1190 阅读 · 0 评论 -
Hbase安装
集群环境:192.168.11.12 作为hbase主master192.168.11.14 作为hbase备用master 192.168.11.16作为zookeeperNode/HRegionsever192.168.11.18作为zookeeperNode/HRegionsever192.168.11.20作为zookeeperNode/HRegionsever原创 2013-04-01 08:41:08 · 960 阅读 · 0 评论 -
google三宝之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来转载 2013-03-29 20:52:05 · 1165 阅读 · 0 评论 -
google三宝之BigTable
2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapRed转载 2013-03-29 20:56:05 · 1039 阅读 · 0 评论 -
google三宝之GFS
题记:初学分布式文件系统,写篇博客加深点印象。GFS的特点是使用一堆廉价的商用计算机支撑大规模数据处理。虽然"The Google File System " 是03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一转载 2013-03-29 20:54:02 · 1389 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的源码分析(数据处理)
1.工具类、接口简介(1)Java代码 // 用于对数据进行分类 org.apache.hadoop.chukwa.extraction.demux.DemuxManager // mapreduce程序的map处理接口 org.apache.hadoop.chukwa.extraction.demux.proc转载 2013-03-22 13:40:53 · 1361 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的处理流程
1. 模拟增量日志环境/home/matrix/Program/project/log/testlogShell代码 - 10.0.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"转载 2013-03-22 13:54:07 · 1501 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的源码分析(适配器、代理)
1. 接口、实现类简介(1)Chukwa使用适配器(Adaptor)实现对各种输入(Streaming、Log File)的监控 org.apache.hadoop.chukwa.datacollection.adaptor.Adaptor 适配器接口Java代码 // 启动适配器 void start(String adaptorID,转载 2013-03-22 13:37:13 · 1362 阅读 · 0 评论 -
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空转载 2014-03-27 10:28:12 · 1346 阅读 · 0 评论 -
Hive优化
Hive性能调校提高Hive总体性能的若干技巧本报告主要就如何提高Hive执行的总体性能进行了调研,下面以分条的形式列举出来。1.设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(t转载 2014-03-25 11:33:14 · 1243 阅读 · 0 评论 -
Hbase使用经验
有待修正一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(Bytes.toBytes(“66”));p.add(Bytes.原创 2013-07-02 09:16:36 · 2308 阅读 · 0 评论 -
hbase rowkey 设计(三维有序)
在用hbase的过程中,我们都知道,rowkey设计的好坏,是我们能最大发挥hbase的架构优势,也是我们是否正确理解hbase的一个关键点。闲话少说,进入正题。hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。先 说rowkey,我们知道row原创 2013-07-02 09:12:59 · 1567 阅读 · 0 评论 -
hive的插入操作
1.insert 语法格式为:基本的插入语法:INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;原创 2013-07-08 14:35:28 · 3013 阅读 · 0 评论 -
MapReduce实例分析
0.MaxValue:要求输出cite75_99.txt中最大的CITED值:要点: 1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数) 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数) 3.cleanup()函数:在任务结束时执行一次。详见A转载 2013-04-17 09:09:13 · 1296 阅读 · 0 评论 -
HIVE文件存储格式的测试比较
根据自身涉及到的数据分布和使用需求,对HIVE上的三类文件格式做了如下测试,指导HIVE的文件格式选型。测试存在环境、数据分布、测试偏重点的不同,本测试只供参考,不作为大家选型决策的绝对指导。HIVE的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把转载 2013-04-12 18:07:32 · 1144 阅读 · 0 评论 -
hive的3种数据存储格式
hive有textFile,SequenceFile,RCFile三种文件格式。其中textfile为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到SequenceFile,R原创 2013-04-12 17:51:48 · 5309 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的源码分析(连接器)
1. 接口、实现类简介(1)org.apache.hadoop.chukwa.datacollection.connector.Connector 连接器接口,旨在设置一个与收集器的长连接以反复发送数据Java代码 // 启动连接器 public void start(); // 停止连接器 public void shutdown();转载 2013-03-22 13:38:02 · 1035 阅读 · 0 评论 -
chukwa在数据收集处理方面的应用
Chukwa 简介什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。Chukwa 应用场景介绍为了更加简单直观的展示 Chukwa,我们先来看一个假设的场景。假设我们有一个规模很转载 2013-03-26 09:15:24 · 1431 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的源码分析(收集器)
1.接口、实现类简介 org.apache.hadoop.chukwa.datacollection.collector.CollectorStub 收集器服务类,使用jetty实现了一个webserver以处理连接器提交的数据块 org.apache.hadoop.chukwa.datacollection.collector.servlet.ServletCo转载 2013-03-22 13:39:00 · 1443 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的安装部署
chukwa是解决在集群环境中收集各节点增量日志的一种基于hadoop的实现方案,其主要有如下四个组成部分。1. Agents 运行在每个客户端上,负责发送数据。2. Collectors 接收Agents发送的数据并写入稳定存储。3. MapReduce jobs 分析和归档数据。4. HICC 数据中心,用于显示数据的web界面。它的系统架构如下图以单机部署为例,前转载 2013-03-22 13:55:04 · 2269 阅读 · 0 评论 -
对zookeeper的一些分析
1.zookeeper不是为高可用性设计的o 由于要跨机房容灾,很多系统实际上是需要跨机房部署的。出于性价比的考虑我们通常会让多个机房同时工作,而不会搭建N倍的冗余。也就是说单个机房肯定撑不住全流量(你能设想谷歌在全球只剩下一个机房在干活吗)。由于zookeeper集群只能有一个master,因此一旦机房之间连接出现故障,zookeeper master就只能照顾一个机房,其他机房运原创 2013-03-13 17:19:57 · 1028 阅读 · 1 评论 -
协同过滤算法(1)
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么转载 2013-03-14 14:08:44 · 851 阅读 · 0 评论 -
Hadoop配置总结
Hadoop配置注意事项:Master和Slave上的几个conf配置文件不需要全部同步,如果确定都是通过Master去启动和关闭,那么Slave机器上的配置不需要去维护。但如果希望在任意一台机器都可以启动和关闭Hadoop,那么就需要全部保持一致了。Master和Slave机器上的/etc/hosts中必须把集群中机器都配置上去,就算在各个配置文件中使用的是IP。这个吃过不少苦头原创 2013-03-02 08:32:16 · 629 阅读 · 0 评论 -
Perl 调试方法
缺省的Perl调试器就是perl解释器本身,另外还有图形界面的调试器。因为我们在开发程序时一般都使用telnet访问服务器,所以这里主要介绍一下缺省的命令行调试器的用法。用-d 命令行选项启动Perl解释器,例如 perl -d test.pl 即进入Perl调试器的交互界面。调试命令列表如下:(所有命令都在调试提示符下顶格输入,命令大小写有关)h:显示调试器的原创 2013-03-02 08:27:16 · 691 阅读 · 0 评论 -
Perl字符串处理
众所周知Perl处理字符串的功能非常强大,Perl(Practical Extraction and Reporting language)处理格式的功能也非常强大,这里我们就开始学习一些Perl的格式和字符串处理。熟悉其最强大的三个函数:substr、pack、unpack。1、大小写处理函数 lc(转为小写) uc(转为大写) 。$text="zhengwen feng";原创 2013-03-02 08:26:35 · 1347 阅读 · 0 评论 -
Perl中chomp函数和chop函数的区别
chomp是用来删除换行符.#!/usr/bin/perl$c="abcde";chomp($c);print "$c\n";[root@ak]# perl a.pl abcdechop是用来删除最后一个字符.#!/usr/bin/perl$c="abcde";chop($c);print "$c\n";[root@ak]# perl a.pl原创 2013-03-02 08:25:01 · 2450 阅读 · 0 评论 -
Hadoop集群环境部署
Hadoop 压缩/解压插件 lzo安装说明1、所需软件apache-ant-1.8.0-bin.tarant编译工具,必须大于1.7版本,否则有些属性不支持kevinweil-Hadoop-lzo-23e8370.tar用来编译hadoop-lzo-0.4.13.jar文件Hadoop-gpl-compression-0.1.0-rc0.tar.gz 上面的替代方案,经测试此方案原创 2013-03-01 16:21:04 · 1357 阅读 · 0 评论 -
hive中的支持的存储格式和压缩格式
一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。存储格式优点缺点SEQUENCEFILE可压缩可分割二进制文件需要一个合并文件的过程,且合并后的文件将不方便查看TEXTFILE简单方便查看RCFILE按列查找,理论上对于宽表采用这个比较好原创 2013-03-01 16:17:15 · 2301 阅读 · 0 评论 -
sudo apt-get update 简介
要用apt-get这种方式安装LAMP时,最好先运行下面在命令升级自己的系统这样是为了更新源,而如果你找的源不好,可能安装LMAP失败。#sudo apt-get update 获得最近的软件包的列表;列表中包含一些包的信息,比如这个包是否更新过#sudo apt-get dist-upgrade 如果这个包没有发布更新,就不管它;如果发布了更新,就把包下载到电脑上,并安装。a原创 2013-03-01 16:03:54 · 13502 阅读 · 4 评论 -
Hadoop集群中增加新节点总结
Hadoop集群中增加新节点向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点上设置host,需要有集群中各节点的host对应4. 新节点上建立相关的目录,并修改属主5.原创 2013-03-02 08:33:00 · 1091 阅读 · 0 评论 -
Hive Partition简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节原创 2013-03-02 08:24:01 · 8989 阅读 · 1 评论 -
linux history历史命令介绍
现在大多数的Linux系统都使用bash作为默认的shell吧,下面就介绍一下bash的history命令管理功能吧,history命令可以回顾,修改和重用之前使用过的历史命令。1.一些变量说明:$HISTFILE bash启动的时候会读取~/.bash_history文件并载入到内存中,这个变量就用于设置.bash_history文件,bash退出时也会把内存中的历史回写到.bash_h原创 2013-03-01 16:02:52 · 1120 阅读 · 0 评论