rcvgt-CSDN博客

原创 linux apache+php+mysql

1.安装mysql在http://www.mysql.com/downloads/mysql/#downloads下载mysql安装包：MySQL-server-5.5.28-1.linux2.6.i386.rpmMySQL-client-5.5.28-1.linux2.6.i386.rpm1、数据库目录　/var/lib/mysql/2、配置文件　　/usr/share/...

2014-07-14 22:50:37 112

原创 Linux搭建SVN Server

[root@singledb ~]# yum install -y subversionLoaded plugins: rhnplugin, securityThis system is not registered with RHN.RHN support will be disabled.Setting up Install ProcessResolving Depend...

2014-05-27 10:59:21 146

原创 hadoop升级

1.运行dfsadmin -upgradeProgress status 检查是否存在备份如果是第一次升级就不存在备份(在升级Hadoop前，如果已经存在备份，需要先结束 finalize 它。)2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息:bin/hadoop fsck / -files -blocks -locations &gt...

2014-05-07 16:51:47 154

原创 Hadoop之JobTrack分析（转）

1.client端指定Job的各种参数配置之后调用job.waitForCompletion(true) 方法提交Job给JobTracker，等待Job 完成。[java] view plaincopyprint? public void submit() throws IOException, InterruptedException, ...

2014-02-10 18:02:49 674

原创 Hadoop之TaskTraker分析（转）

TaskTracker的工作职责之前已经和大家提过，主要负责维护，申请和监控Task，通过heartbeat和JobTracker进行通信。 TaskTracker的init过程： 1.读取配置文件，解析参数 2.将TaskTraker上原有的用户local files删除并新建新的dir和file 3. Map<TaskAttemptID...

2014-01-26 11:58:44 220

原创 Hadoop : MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。 MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务...

2014-01-26 11:51:12 82

原创 Hadoop的shuffle

我们知道每个reduce task输入的key都是按照key排序的。但是每个map的输出只是简单的key-value而非key-valuelist，所以洗牌的工作就是将map输出转化为reducer的输入的过程。在map结束之后shuffle要做的事情： map的输出不是简单的写入本地文件，而是更多的利用内存缓存和预排序工作，以提高效率。io.so...

2014-01-26 11:49:37 87

原创 Hadoop 优化性能

Hadoop 可配置参数Hadoop 提供许多配置选项，用户和管理员可以通过它们进行集群设置和调优。core/hdfs/mapred-default.xml 中有许多变量，可以在core/hdfs/mapred-site.xml 中覆盖它们。一些变量指定系统上的文件路径，而其他变量对 Hadoop 的内部进行深入的调整。性能调优主要有四个方面：CPU、内存、磁盘 I/O 和网络。本文介...

2014-01-26 11:40:52 143

在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切...

2014-01-26 11:26:56 92

原创 hadoop fsck命令详解

fsck 是一个文件检查工具这条命令将会递归检查路劲下所有文件的健康状况。 hadoop fsck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] <path> 检查这个目录中的文件是否完整 ...

2014-01-22 10:18:00 261

原创 Hadoop集群balance工具详解

Hadoop集群balance工具详解在线上的Hadoop集群运维过程中，hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布，以避免出现部分datanode磁盘占用率高的问题（这问题也很有可能导致该节点CPU使用率较其他服务器高）。1） hadoop balance工具的用法：To start: bin/start-bala...

2014-01-15 10:16:25 184

原创 HADOOP源码学习思路与方法

读源码方面的顺序是先读懂以下五个方面的源码，其已囊括了Hadoop的核心要务，1、读源码的过程与读Docs过程并行，此阶段以Docs为中心，读源码目的是要辅住理解Docs；2、读懂Docs后读源码时要融汇贯通，系统的读，整体把握，可以应用比如类图等方法辅助，此阶段还要返回读Docs以辅助理解源码。3、在以上基础上，开始进入应用Hadoop阶段。org.apache.hadoop....

2014-01-03 23:49:48 91

原创 Hadoop源代码学习（完整版）

源地址：http://blog.csdn.net/xiaogugood/article/details/8209839Hadoop源代码学习（完整版） Hadoop源代码分析（一）HadoopMapreduceGoogleHBaseFacebook 经济不行啦，只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章...

2014-01-03 23:49:02 145

原创 hive 配置参数说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。 13...

2014-01-03 17:28:01 103

原创 hive UDF UDAF UDTF

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/...

2014-01-02 18:37:51 81

原创常用awk命令（转）

awk 用法：awk ' pattern {action} ' 变量名含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符，默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符 1、awk '/101/' ...

2013-12-30 18:18:59 94

原创 linux awk命令详解

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。 awk其名称得自于它的创始人 Al...

2013-12-30 18:18:55 93

原创 Hive 数据倾斜总结

转载：http://www.tbdata.org/archives/2109几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这...

2013-12-27 18:10:46 101

原创 Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作和SQL一样，HiveQL中同样支持DISTINCT操作，如下示例：(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROM log G...

2013-12-27 18:09:11 175

原创 Hive优化2

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin...

2013-12-27 18:08:08 80

原创 Hive优化总结（转）

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小...

2013-12-27 18:06:16 116

原创 hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。hive 中没有in/exist 这样的子句，所以需要将这种类型的子句转成left semi join. left semi join 是只传递表的join key给map 阶段 , 如果key 足够小还是执行map join, 如果不是则还是common join可以用 LEFT SEMI JOIN 重写...

2013-12-27 17:11:08 175

原创外面没有别人，只有你自己

凡是你排斥的，就是你所要学习的! 从外在看内在，从别人看自己。透过别人，你才能认识真正的自己你从别人身上看到的其实是自己。我们对别人的意见，主要是取决于他们使我们看清自己什么，而不是我们如何看他们。你所有的人际关系都是一面镜子，透过它们，你才能认识真正的自己。你在发觉对方的过程中，不知不觉你也等于是发掘你自己。去了解他的感觉、想法，你也更了解自己...

2013-09-22 10:52:14 308

原创 Hadoop SecondNamenode详解

SecondNamenode名字看起来很象是对第二个Namenode，要么与Namenode一样同时对外提供服务，要么相当于Namenode的HA。真正的了解了SecondNamenode以后，才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义：* The Secondary Namenode is a helper to the primary Name...

2013-09-16 16:45:24 133

原创深入了解Hadoop

一、前提和设计目标 1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。 3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般...

2013-09-13 17:17:35 71

原创 python 去掉空格函数

str.strip() 同时去掉左右两边的空格str.lstrip() 去掉左边的空格str.rstrip() 去掉右边的空格 eg:m = ' jafefefe 'minfo = m.strip()print minfo输出结果：jafefefe ...

2013-06-27 14:37:32 283

原创 hive 表结构操作

简单的创建表create table table_name ( id int, dtDontQuery string, name string)创建有分区的表create table table_name ( id int, dtDontQuery ...

2013-06-27 13:13:26 112

原创 hadoop节点管理

（hadoop版本1.0.3）hadoop增加节点操作前提操作系统环境已经成功安装完成，步骤如下：第一： master主机里的$HADOOP_HOME/conf下，修改slaves文件，增加新增节点主机名第二：配置免登录设置第三：新增节点启动datanode和tasktracker两个进程 $HADOOP_HOME/bin/hadoop-daemon....

2013-04-28 11:41:38 175

Hadoop平台搭建步骤

一、虚拟机及系统安装1. 下载vmware，并成功安装；2. 在vmware中安装Linux系统；二、在虚拟机中配置JAVA环境1.安装java虚拟机（jdk-6u31-linux-i586.bin）；2.配置环境变量(1) vi /etc/profile (编辑文件)(2) 添加 JAVA_HOME CLASSPATH PATH<!--[endi...

2013-04-28 11:00:56 301

babylalalove的专栏