自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 问答 (1)
  • 收藏
  • 关注

博客地址变更

all the guys of visiting the blog : I had changed my blog stie to wordpress ,that is my blog site [url]http://wwangcg.com[/url]thanks everyone that support me at so along time .thank...

2013-08-16 10:29:38 183

python

http://hyry.dip.jp/tech/slice/slice.html/24

2013-07-17 11:38:18 151

读过的书

[code="java"]1.Apache Hadoop Goes Realtime at Facebook[/code]

2013-07-16 11:46:09 193

impala 概念与架构

[size=medium]impalad[/size] impala 核心组成部分之一 [color=red][b]impalad[/b][/color] ,它是impala的一个启动进程.impalad 运行在集群中的每一个独立节点机器上。应用impala必须启动impalad进程。 impalad 负责读写数据文件,接受来自impala-shell发送的sq...

2013-05-27 17:28:36 202

hadoop 源码分析(六)hadoop taskTracker 生成map 和reduce任务流程

taskTracker 生成map reduce 任务详解 1. 启动 TaskTracker ,执行main方法 new TaskTracker(conf) 启动taskTracker2. taskTrack 构造方法初始化变量 mapred.tasktracker.map.tasks.maximum taskTracker 可launch 的最大map数 默认是2 mapr...

2013-04-09 17:36:47 153

hadoop 源码分析(五)hadoop 任务调度TaskScheduler

hadoop mapreduce 之所有能够实现job的运行,以及将job分配到不同datanode 上的map和reduce task 是由TaskSchduler 完成的.TaskScheduler mapreduce的任务调度器类,当jobClient 提交一个job 给JobTracker 的时候.JobTracker 接受taskTracker 的心跳.心跳信息含有空闲的slo...

2013-04-01 11:07:09 202

hadoop 源码分析(四)JobTracker 添加job 到schduler 队列中

[b]启动 JobTracker [/b]1. 进入main方法: [code="java"] //执行startTracker 方法 JobTracker tracker = startTracker(new JobConf()); //执行offerService()方法 tracker.offerService();[/code]...

2013-03-29 18:37:15 91

hadoop 源码分析(三) hadoop RPC 机制

Hadoop 通信机制采用自己编写的RPC. 相比于其他复杂的rpc框架着实清爽了许多.rpc在hadoop中扮演的角色是通信和数据传输在client和server端,以及datanode和namenode 心跳数据以及jobTracker 和taskTracker 通信 1. Client 与 server 端通信采用Writable 序列化形式.因此hadoop中信息的...

2013-03-28 15:13:39 106

hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker

1.JobClient 客户端类 通过调用 JobSubmissionProtocol 接口 的 submit 方法提交作业2. JobSubmissionProtocol 接口为 JobClient 和JobTracker 共同执行的接口,因此它是一个可代理的接口3. 调用 createRPCProxy() 通过远程RPC 调用实现动态代理 JobTracker 类的 submit...

2013-03-27 12:57:17 194

原创 hadoop 源码分析(一) jobClient 提交到JobTracker

     Hadoop 用了2年多了.从最初一起创业的11人20台服务器集群到后来独立搭建基于hadoop nutch的搜索引擎并商用化 到现在也2年了.这两年来应用了很多新技术也经历了很多,从数据仓库的Hive pig 到mapreduce的编码去解决算法或是etl的问题 等等都离不开hadoop.觉得用了2年多也到了该总结的时候了.故此想重新翻译hadoop 源码,按照不同的类方法的不...

2013-03-26 13:41:49 149

hive 复杂数据结构嵌套

Hive hive 除了支持基本的数据结构hive 复杂的数据结构:[code="java"]{ array map struct}[/code]数据格式[code="java"]221190xxx9 0401:0.30 0402:0.81 1303:0.23 1502:0.21 1503:0.11 0307:0.17 1003:0.35...

2013-03-14 16:03:03 1007

原创 RHadoop 安装教程

RHadoop 环境安装硬件: [code="java"] centos6 16G memory [/code]软件: [code="java"] RJSONIO digest functional stringr[/code]==上面软件直接 install.package(' package name') 既可直接安装...

2013-02-01 17:18:07 175

hive topN 实现

hive的topN实现hive的topN实现方式有很多种,网上有一些通过自己写的udf实现,下面将我写的sql模式贴一下核心原理通过group by 分组求和 之后 用order by 进行全局排序 之后在limit n 取你想要的 topn 排名上sql:[code="java"]select obj , cnt from ( select obj ,count(...

2012-12-14 06:51:22 471

Hive与表操作有关的语句

Hive与表操作有关的语句1.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMEN...

2012-12-03 14:25:51 78

hive中的LEFT SEMI JOIN

hive中的LEFT SEMI JOIN LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELEC...

2012-11-28 14:06:29 144

单用户访问数据库和多用户访问数据库

使用单用户数据库时,每个事务都是顺序执行的,而不必应付与其它事务的冲突。但是,在多用户数据库环境下,多个事务可以同步执行,并且每个事务都有可能与其它正在运行的事务发生冲突。在多用户环境下,如果不将事务彼此隔离开来,就会发生四种现象:丢失更新:这种事件发生在两个事务读取和尝试更新同一数据时,其中一个更新会丢失。例如:事务 1 和事务 2 读取同一行数据,并都根据所读取的数据计算出该行的新...

2012-11-22 10:32:28 1188

pig

转自:http://www.hadoopor.com/thread-236-1-1.htmlPig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是...

2012-11-16 19:28:35 92

hadoop与hive的映射

hadoop与hive的映射 hadoop代码转向hive代码说到,很多MR任务可以由hive完成。这几天,作了一些简单的汇总:1、文件切割(多输入多输出) 需求:数据LOG包含多种信息,需要将不同的数据信息重定向到不同的文件。 hadoop:MultipleInputs、multipleoutputs两个类主要负责多输入多输出的处理...

2012-11-15 10:21:55 414

java 中object 方法

Java中Object的方法构造方法摘要 Object() 方法摘要 protected Object clone() 创建并返回此对象的一个副本。 boolean equals(Object obj) 指示某个其他对象是否与此对象“相等”。 protected void构造方法摘要 O...

2012-11-02 07:39:49 80

hive 自定义udf

Hive的预定义UDF函数列表如下abs(x) - returns the absolute value of xacos(x) - returns the arc cosine of x if -1

2012-10-24 10:42:03 112

hive Sort By/Order By/Cluster By/Distribute By

hive Sort By/Order By/Cluster By/Distribute By摘自:http://blog.csdn.net/yfkiss/article/details/8021562Order by[plain] view plaincopycolOrder: ( ASC | DESC ) orderBy: ORDER BY colName colOrd...

2012-10-22 16:51:50 78

apache felix的简单使用

apache felix的简单使用Felix,是Apache的一级项目,见:http://felix.apache.org/site/index.htmlFelix是OSGi R4服务平台的免费开源实现。由Oscar项目演变而来。当前版本:1.0.1。下载压缩包:http://felix.apache.org/site/downloads.cgi解压...

2012-10-18 11:12:29 899

安装 mysql 启动问题

1. 配置开机启动服务/sbin/chkconfig httpd on [设置apache服务器httpd服务开机启动]/sbin/chkconfig –add mysqld [在服务清单中添加mysql服务]/sbin/chkconfig mysqld on [设置mysql服务开机启动]/sbin/service httpd start [启动httpd服务,与开机启动无关]...

2012-10-17 10:29:55 60

git 冲突解决

git http://www.cnblogs.com/sinojelly/archive/2011/08/07/2130172.html

2012-10-10 15:43:21 72

hive的权限控制

hive的权限控制hiveserver 不支持 并发的访问.如果有多于一个client 并发访问的时候 会报出来表找不到的错误.通过不同的业务启动不同的端口 可以解决此问题.这样不同的端口的hiveserver服务 就不存在多个client同时访问一个hiveserver的情况了.hive是没有库的概念的,但是我们通常是需要“库”这个东西存在。 1.不同日志,视...

2012-10-09 17:48:45 85

mongodb MapReduce使用初步

mongodb MapReduce使用初步摘自:http://www.kafka0102.com/2010/09/329.html最近在做搜索的查询日志的统计分析,对每一条查询统计日志,我将其解析出来后以特定字段格式存在mongodb中,定时调度做些统计分析。其中有个需求是,统计某个时间段(每天、每周、每月)各个query的查询次数,展示上就是热门查询query了...

2012-09-26 14:08:09 91

MongoDB 一些基本概念

MongoDB是一种可扩展的高性能的开源的面向文档(document-oriented )的数据库,采用C++开发。注意mongo不是mango(芒果),这个词是从humongous中截取出来的,其野心不言而明,直指海量数据存储。和其他很多NoSQL不太一样,MongoDB背后有一个专门的商业公司在提供支持和推广,有点类似MySQL AB的模式。这一系列文章,是为入门者写的,已经对NoSQL和Mo...

2012-09-26 13:54:12 68

MongoDB 主从复制配置

MongoDB 主从复制配置原文出处:http://blog.chenlb.com/2010/03/mongodb-master-slave.htmlMongoDB 主从复制与 Mysql 类似。在主服务器上加--master 选项启动。bin/mongod --dbpath=/home/mongodb/db --master --oplogSize 64...

2012-09-26 11:06:23 67

java 监控工具

jconsole—监测内存的工具图形化界面 jstat—GC监控工具 cacti—系统监控开源软件可进行全面配置和监控设置预警值等功能图形界面 jmap+MAT—dump分析工具配合MAT使用(我没有使用过) visualvm—较全面的监测工具图形化界面 jprofiler—听别人说的没用过 shell—...

2012-09-25 15:35:41 65

原创 centos yum 安装mysql

1. CentOS5 下安装和卸载mysql(1) 使用root用户,执行如下命令yum install mysqlyum install mysql-serveryum install mysql-develyum install mysql-clientchgrp -R mysql /var/lib/mysqlchmod -R 770 /...

2012-09-22 13:54:03 82

kerberos

 kerberos是由MIT开发的提供网络认证服务的系统,很早就听说过它的大名,但一直没有使用过它。它可用来为网络上的各种server提供认证服务,使得口令不再是以明文方式在网络上传输,并且联接之间通讯是加密的;它和PKI认证的原理不一样,PKI使用公钥体制(不对称密码体制),kerberos基于私钥体制(对称密码体制)。  本篇文章不打算详细讲解kerberos的工作原理,而是侧重介绍在...

2012-09-21 13:41:10 127

查看linx tcp 连接

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' TIME_WAIT 8947FIN_WAIT1 15FIN_WAIT2 1ESTABLISHED 55SYN_RECV 21CLOSING 2LAST_ACK 4TCP连接状态详解 LISTEN: 侦听来自...

2012-09-17 22:04:42 62

mongodb 内存

MongoDB与内存转载:http://huoding.com/2011/08/19/107MongoDB服务器的top命令结果:shell> top -p $(pidof mongod)Mem: 32872124k total, 30065320k used, 2806804k free, 245020k buffersSwap: 2097144k to...

2012-09-13 14:07:40 145

hive cli 操作表分区

hive表分区必须在表定义时创建partition a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。以dt为文件夹区分b、双分区建表语句:create table day_hour_table...

2012-08-10 14:04:06 89

MongoDB创建表步骤

MongoDB创建表步骤,Mongo常用的数据库操作命令,查询,添加,更新,删除_MongoDB 性能监测->use Admin (切换到创建用户)->db.TestDb (创建数据库) ->db.addUser(“userName”,”Pwd”) 创建用户->db.auth(“userName”,”Pwd”) 设...

2012-08-09 10:33:29 5286

原创 ls command not found

ls command not found分类: linux 技术 2010-10-11 17:40 1244人阅读 评论(2) 收藏 举报编辑profile文件没有写正确,导致在命令行下 ls等命令不能够识别。在命令行下打入下面这段就可以了export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin...

2012-08-08 13:58:37 141

原创 centos 安裝 ImageMagick imagick for php

centos 安裝 ImageMagick imagick for phpyum install ImageMagickyum install ImageMagick-develyum install php-pear [for PECL]使用 pecl 需要 phpize , 沒的話會出現 ERROR: `phpize’ failed把 php 相關的...

2012-08-06 16:12:47 84

原创 yum 安装php5.2

CentOS yum安装php版本比较老(PHP 5.1.6),现在很多程序都需要5.2.x的版本支持,所以网上找了找方法,一并记录下来。这次更新使用的是jasonlitka的yum更新源安装RPM-GPG-KEY-jlitka。# rpm --import http://www.jasonlitka.com/media/RPM-GPG-KEY-jlitka编辑CentOS-Bas...

2012-08-06 13:59:15 298

原创 Hive 数据倾斜总结

Hive 数据倾斜总结转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map...

2012-08-03 14:19:51 175

hadoop distcp

hadoop distcp使用:distcp src dst1.要求两个集群有相同的用户名,且此用户的密码也相同2.配置/etc/hosts,使两个集群的每个结点都包含所有其它机器的主机名到ip的对应信息3.如果两个集群用户不一样,则可以在一个集群上新建用户,与创建第一个hadoop用户一样:(1)创建用户举例:groupadd hadoopuseradd -g ...

2012-07-31 10:00:19 325

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除