自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 sqoop import export参数介绍

通用参数选项含义说明–connect 指定JDBC连接字符串–connection-manager 指定要使用的连接管理器类–driver 指定要使用的JDBC驱动类–hadoop-mapred-home 指定$HADOOP_MAPRED_HOME路径–help打印用法帮助信息–password-file设置用于存放认证的密码信息文件...

2018-10-31 09:07:20 1388

原创 Hive统计TopN问题

这里模拟一个统计每个区域最受关注的top3的产品业务需求,并模拟生成3张表,分别为城市表city_info,产品表product_info,用户点击行为表user_click。所用的工具有HDFS,HIVE,SQOOP,MYSQL。

2018-10-29 17:23:58 2888

原创 Sqoop 安装测试

1 什么是Sqoop  Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提...

2018-10-27 10:47:16 382

原创 Yarn调优

1 什么是yarnYarn是Hadoop2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster,其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。Yarn主要由Resou...

2018-10-25 16:31:00 328

原创 Hive 分区表

1 、什么是分区表一个表按照某个或某些字段进行分区的表2、为什么要用分区表如果一个hive表没有分区,在查询数据的时候,会进行全表扫描的动作,非常的耗费资源和时间。使用分区表可以只查询指定分区下的数据,大大减少了查询的时间。3、建分区表create table order( order_num string, order_time string) partitioned b...

2018-10-24 16:44:49 272

原创 Hive 函数

1、查询hive中的函数,使用show functions;即可看见可用的所有函数。如下图(列出部分):如果我们想查看某个方法的具体用法,如abs,可以用命令desc function abs;会返回这个函数的用法,当然,还有更详细的命令desc function extended abs;这个命令会列出具体的例子,可以更直观的知道函数的使用方法。...

2018-10-24 14:53:14 146

原创 Hive wordcount

如何使用hive进行wordcount统计如下图,我们先在hive中建一张名为wc的表,里面只有一个字段,包含以逗号隔开的数据然后使用函数split , explode,count,group by进行统计1、 先使用split将每行数据切开,这里是用逗号分隔select split(tence,',') from wc;2、再用explode函数将每个数据处理成一行,即每行只有一条...

2018-10-24 14:34:40 410

原创 Hive DDL DML基础

1、Database 表空间    是HDFS的一个文件夹,列出hive中的表空间语句为:show databases    hive默认有一个default表空间。    默认的数据库存储位置为:/user/hive/warehouse    位置设置参数为:hive.metastore.warehouse.dir2、DDL : Data Definition Language ...

2018-10-23 17:26:47 180

原创 HDFS读文件流程

HDFS读文件流程图如下:1、client通过FileSystem.open(path)方法,去与NN进行RPC通信,NN会校验传入的路径是否存在,用户是否有权限访问该路径下的文件。2、校验完成后,返回部分或者全部的block列表。其实就是返回FSDataInputStream对象。3、client调用FSDataInputStream的read()方法a 去第一个块的最近的DataNo...

2018-10-16 15:05:59 141

原创 Yarn的工作流程(mr提交应用程序)

Yarn的工作流程如下图:1、 用户向Yarn提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager为该程序分配第一个Container,并与对应的NodeManager通信,要求它在对应的Container中启动应用程序的ApplicationMaster。3、ApplicationMas...

2018-10-16 11:03:39 1367

转载 secondary namenode和namenode的区别

Secondary NameNode:它究竟有什么作用?在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑,Secondary NameNode究竟是做什么的,而且它为什么会出现在HDFS中。因此,在这篇文章中,我想要解释下Secondary Name...

2018-10-15 16:06:43 179

原创 二进制安装MYSQL

安装前置条件:需安装配置jdk安装过程1 下载MYSQL介质可根据自己需要的版本下载cd /usr/localwget https://downloads.mariadb.com/archives/mysql-5.6/mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz2 解压介质并重命名文件夹为mysqltar -zxvf mysql-5.6.23-...

2018-10-15 15:34:55 231

原创 pid文件

pidpid就是hadoop相关进程的进程号默认存储在/tmp目录下,如图:因为linux tmp目录会定期清理文件 如果将pid文件设置在tmp目录下 pid文件会被删除,注意:pid文件被删除不会影响当前进程的正常运行,但是会影响停止和重启该进程 停止会找不到进程 重启会重新启动一个新的进程 造成进程号紊乱如果遇到这种情况 可先强制杀死进程,再重新启动进程建议不要将pid文件位置设...

2018-10-15 12:49:53 1172

原创 HDFS写文件流程

HDFS写入文件流程图如下:1 客户端调用Distributed FileSystem.create(path)方法,与NameNode进行RPC通信,参数为路径path。检查传入的路径是否存在,以及当前用户是否有写入权限。假如都满足,就创建一个新的文件,但是此时并不关联任何的block。并且返回FsDataOutputStream对象。如果有一个不满足,返回错误信息。注意:写文件调用对...

2018-10-15 11:30:47 312

原创 HDFS架构详解

HDFS:伪分布式1 block块参数为 dfs.blocksize 默认为128M例如:1个文件130M,存在HDFS上存储为两个块一个128M一个2M2 副本数指的是一个块存在的复制数量参数为:dfs.replication 默认为3面试题:一个文件160M,副本数为2,块大小为128M。实际存储空间是多少?块数量是多少?答:一共4个块 实际存储为320M3 HD...

2018-10-14 19:19:50 301

原创 JPS命令

什么是jpsjps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。jps位于JDK的bin目录下,其作用是显示当前系统的java进程情况及其id号。jps相当于Solaris进程工具ps。不像”pgrep j...

2018-10-14 16:25:31 601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除