自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Beeman_xia的世界

世界上有10种人,一种懂二进制,一种不懂!

  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

转载 常用表单的正则表达式

表单验证常用正则,非常不错,收集的相对比较完整,大家可以看看。1。^\d+$  //匹配非负整数(正整数 + 0) 2。^[0-9]*[1-9][0-9]*$  //匹配正整数 3。^((-\d+)|(0+))$  //匹配非正整数(负整数 + 0) 4。^-[0-9]*[1-9][0-9]*$  //匹配负整数 5。^-?\d+$    //匹配整数 6。^\d+(\.\

2016-12-26 16:22:18 594

转载 Azkaban 2.5.0 搭建和一些小问题

安装环境:系统环境: ubuntu-12.04.2-server-amd64安装目录: /usr/local/ae/ankabanJDK 安装目录: export JAVA_HOME=/usr/local/ae/jdk1.7.0_51Hadoop 安装目录 export HADOOP_HOME=/usr/local/ae/hadoop-1.2.1Mysql 版本:mysql-server-

2016-12-26 10:34:01 1269

转载 Python_Python遍历列表的四种方法

方式一:app_list = [1234, 5677, 8899]for app_id in app_list: print app_id输出: 1234 5677 8899方式二:app_list = [1234, 5677, 8899]for index,app_id in enumerate(app_list): prin

2016-12-25 21:32:28 1262

转载 Hive中常用的查询命令

日志数据的统计处理在这里反倒没有什么特别之处,就是一些 SQL 语句而已,也没有什么高深的技巧,不过还是列举一些语句示例,以示 hive 处理数据的方便之处,并展示 hive 的一些用法。a)          为 hive 添加用户定制功能,自定义功能都位于 hive_contrib.jar 包中add jar /opt/hadoop/hive-0.5.0-bin/lib/hiv

2016-12-24 22:44:45 2447

转载 hive中UDF、UDAF和UDTF使用

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Jav

2016-12-21 11:33:52 430

转载 HIVE json格式数据的处理

转载:http://www.cnblogs.com/casicyuan/p/4375080.html今天要处理一个以json格式存储的数据,想要直接把json的各个项的数据存入HIVE表中。HIVE直接读入json的函数有两个:(1)get_json_object(string json_string, string path)返回值: string  说明

2016-12-20 19:43:07 1730

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

转载:http://www.360doc.com/content/15/0624/11/7673502_480315377.shtml1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也

2016-12-20 15:05:47 303

原创 Hive简单安装

数据库的创建Hive1版本在此之前要安装好JDK,HADOOP,下载解压Hive在root下安装mysql:yum install mysql-server mysql-client //一般Mysql都是自带的在root下创建hadoop用户:1su到root下2启动mysql服务:./etc/init.d/mysqld restart3返回家目录,输入mys

2016-12-16 23:03:22 320

原创 shuffle过程简介--笔记

数据保存在 分片Map输出键值对写到缓存,满的时候溢写到缓存的数据写入磁盘的过程中,分区排序,合并多个磁盘文件归并通知Reduce任务拉取Map端的shuffle1输入数据和执行任务:分片后分配Map任务,每个任务分配100M缓存2写入缓存在溢写过程中:3溢写 溢写比达到0.8后启动溢写进程,把缓存写入到磁盘分区:默认

2016-12-16 22:35:04 435

原创 hive的简单理解--笔记

Hive的理解数据仓库的工具 Hive仅仅是在hadoop上面包装了SQL;Hive的数据存储在hadoop上Hive的计算由MR进行Hive批量处理数据 Hive的特点1 可扩展性(hadoop)2 延展性3 容错性(MR)

2016-12-16 22:12:11 590

原创 Shuffle过程的简单介绍

Shuffle是连接Map和Reduce的桥梁Shuffle分为Map端的Shuffle和Reduce端的ShuffleMap端的shuffle1输入数据和执行任务:分片后分配Map任务,每个任务分配100M缓存2写入缓存在溢写过程中:3溢写 溢写比达到0.8后启动溢写进程,把缓存写入到磁盘分区:默认采用哈希函数排序:默认操作合并:可能发生(

2016-12-08 22:55:32 649

转载 hadoop命令

1、查看指定目录下内容Hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件hadoop dfs –cat [file_path]eg:hadoop dfs -cat /user/wangkai.pt/data.txt3、将本地文件存储至hadoo

2016-12-08 20:00:51 386

转载 YARN到底是怎么一回事?

文章思路:首先提出第一代MRv1(MapReduce Version1.0)的局限性,然后解释YARN是怎么克服这些局限性的,接着说了YARN的编程模型,说了YARN的组成,YARN的通信协议和YARN的运行过程。通过这样的描述来认识YARN的。MRv1的局限性YARN是在MRv1的基础上演化而来,它克服了MRv1的各种局限性:1:扩展性差MRv1中,Jobracker同事兼备

2016-12-08 15:13:13 3129

转载 hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍

ApplicationMaster是什么?ApplicationMaster是一个框架特殊的库,对于Map-Reduce计算模型而言有它自己的ApplicationMaster实现,对于其他的想要运行在yarn上的计算模型而言,必须得实现针对该计算模型的ApplicationMaster用以向RM申请资源运行task,比如运行在yarn上的spark框架也有对应的Application

2016-12-08 11:04:51 805

原创 MapReduce简单分析

在Map端数据从Map中写入环形缓冲区,进行分区,分区时达到80%后溢出写入到磁盘,这几步同步进行Reduce端执行完Map 后到Reduce内存中,进行sort和merge,生成溢出文件,很多的溢出文件合并(一次合并10个),Reduce文件读取,然后做处理。

2016-12-08 10:29:43 347

原创 Hadoop 中 最重要的两个模块

Hadoop 中 最重要的两个模块HDFS   分布式的文件系统主节点:NameNodeSecondaryNamenodeResourceManager从节点:DataNodeNodeManagerMapReduce  分布式的并行计算框架job.submit();job.waitForCompletion();就会启动运行一

2016-12-07 21:20:31 2349

转载 Hadoop 新 MapReduce 框架 Yarn 详解

简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。 读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原

2016-12-07 21:15:21 381

转载 YARN作业运行机制

在传统的MapReduce中, Jobtracker同时负责作业调度(将任务调度给对应的tasktracker)和任务进度管理(监控任务, 重启失败的或者速度比较慢的任务等). YARN中将Jobtracker的责任划分给两个独立的守护进程: 资源管理器(resource manager)负责管理集群的所有资源, 应用管理器(application master)负责管理集群上任务的生命周期.

2016-12-07 09:52:33 546

原创 HDFS的接口(命令行接口和Java接口)--笔记

HDFS 文件的系统访问的接口1.Hadoop的shell命令脚本hadoop fs -ls   列出某一个目录下的文件hadoop fs -lsr 递归的方式列出所有文件hadoop fs -mkdir 创建目录hadoop fs -rm   删除文件或者目录hadoop fs -rmr  删除目录及目录下的所有目录或者文件hadoop

2016-12-01 16:23:31 1094

原创 eclipse运行中出错:unknown protocol: hdfs

出现这个错误因为你没有把core-site.xml和hdfs-site.xml放到项目下程序运行开始就要调用这两个配置文件,这两个文件就是配置Hadoop时候的配置文件,只需要把至两个文件copy到你这个项目的bin目录下,复制过去一定要记住刷新一下eclipse,在项目的空白处右击鼠标,选择Refresh。或者用图形化界面,找到hadoop配置文件,然后复制这两个文件到你的项目的bin目

2016-12-01 10:45:38 1158

spring4个核心包加两个日志包

spring-beans-4.2.4.RELEASE.jar spring-core-4.2.4.RELEASE.jar spring-expression-4.2.4.RELEASE.jar spring-context-4.2.4.RELEASE.jar com.springsource.org.apache.log4j-1.2.15.jar com.springsource.org.apache.commons.logging-sources-1.1.1.jar com.springsource.org.apache.commons.logging-1.1.1.jar

2017-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除