2018年10月_夏至1208

原创 sqoop import export参数介绍

通用参数选项含义说明–connect 指定JDBC连接字符串–connection-manager 指定要使用的连接管理器类–driver 指定要使用的JDBC驱动类–hadoop-mapred-home 指定$HADOOP_MAPRED_HOME路径–help打印用法帮助信息–password-file设置用于存放认证的密码信息文件...

2018-10-31 09:07:20 1388

原创 Hive统计TopN问题

这里模拟一个统计每个区域最受关注的top3的产品业务需求，并模拟生成3张表，分别为城市表city_info，产品表product_info，用户点击行为表user_click。所用的工具有HDFS，HIVE，SQOOP，MYSQL。

2018-10-29 17:23:58 2888

1 什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提...

2018-10-27 10:47:16 382

原创 Yarn调优

1 什么是yarnYarn是Hadoop2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster，其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。Yarn主要由Resou...

2018-10-25 16:31:00 328

原创 Hive 分区表

1 、什么是分区表一个表按照某个或某些字段进行分区的表2、为什么要用分区表如果一个hive表没有分区，在查询数据的时候，会进行全表扫描的动作，非常的耗费资源和时间。使用分区表可以只查询指定分区下的数据，大大减少了查询的时间。3、建分区表create table order( order_num string, order_time string) partitioned b...

2018-10-24 16:44:49 272

原创 Hive 函数

1、查询hive中的函数，使用show functions;即可看见可用的所有函数。如下图（列出部分）：如果我们想查看某个方法的具体用法，如abs,可以用命令desc function abs;会返回这个函数的用法，当然，还有更详细的命令desc function extended abs;这个命令会列出具体的例子，可以更直观的知道函数的使用方法。...

2018-10-24 14:53:14 146

原创 Hive wordcount

如何使用hive进行wordcount统计如下图，我们先在hive中建一张名为wc的表，里面只有一个字段，包含以逗号隔开的数据然后使用函数split , explode,count,group by进行统计1、先使用split将每行数据切开，这里是用逗号分隔select split(tence,',') from wc;2、再用explode函数将每个数据处理成一行，即每行只有一条...

2018-10-24 14:34:40 410

原创 Hive DDL DML基础

1、Database 表空间是HDFS的一个文件夹，列出hive中的表空间语句为：show databases hive默认有一个default表空间。默认的数据库存储位置为：/user/hive/warehouse 位置设置参数为：hive.metastore.warehouse.dir2、DDL : Data Definition Language ...

2018-10-23 17:26:47 180

原创 HDFS读文件流程

HDFS读文件流程图如下:1、client通过FileSystem.open(path)方法，去与NN进行RPC通信，NN会校验传入的路径是否存在，用户是否有权限访问该路径下的文件。2、校验完成后，返回部分或者全部的block列表。其实就是返回FSDataInputStream对象。3、client调用FSDataInputStream的read()方法a 去第一个块的最近的DataNo...

2018-10-16 15:05:59 141

原创 Yarn的工作流程（mr提交应用程序）

Yarn的工作流程如下图：1、用户向Yarn提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager为该程序分配第一个Container,并与对应的NodeManager通信，要求它在对应的Container中启动应用程序的ApplicationMaster。3、ApplicationMas...

2018-10-16 11:03:39 1367

转载 secondary namenode和namenode的区别

Secondary NameNode:它究竟有什么作用？在Hadoop中，有一些命名不好的模块，Secondary NameNode是其中之一。从它的名字上看，它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑，Secondary NameNode究竟是做什么的，而且它为什么会出现在HDFS中。因此，在这篇文章中，我想要解释下Secondary Name...

2018-10-15 16:06:43 179

原创二进制安装MYSQL

安装前置条件：需安装配置jdk安装过程1 下载MYSQL介质可根据自己需要的版本下载cd /usr/localwget https://downloads.mariadb.com/archives/mysql-5.6/mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz2 解压介质并重命名文件夹为mysqltar -zxvf mysql-5.6.23-...

2018-10-15 15:34:55 231

原创 pid文件

pidpid就是hadoop相关进程的进程号默认存储在/tmp目录下，如图：因为linux tmp目录会定期清理文件如果将pid文件设置在tmp目录下 pid文件会被删除，注意：pid文件被删除不会影响当前进程的正常运行，但是会影响停止和重启该进程停止会找不到进程重启会重新启动一个新的进程造成进程号紊乱如果遇到这种情况可先强制杀死进程，再重新启动进程建议不要将pid文件位置设...

2018-10-15 12:49:53 1172

原创 HDFS写文件流程

HDFS写入文件流程图如下：1 客户端调用Distributed FileSystem.create(path)方法，与NameNode进行RPC通信，参数为路径path。检查传入的路径是否存在，以及当前用户是否有写入权限。假如都满足，就创建一个新的文件，但是此时并不关联任何的block。并且返回FsDataOutputStream对象。如果有一个不满足，返回错误信息。注意：写文件调用对...

2018-10-15 11:30:47 312

原创 HDFS架构详解

HDFS：伪分布式1 block块参数为 dfs.blocksize 默认为128M例如：1个文件130M，存在HDFS上存储为两个块一个128M一个2M2 副本数指的是一个块存在的复制数量参数为：dfs.replication 默认为3面试题：一个文件160M，副本数为2，块大小为128M。实际存储空间是多少？块数量是多少？答：一共4个块实际存储为320M3 HD...

2018-10-14 19:19:50 301

原创 JPS命令

什么是jpsjps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令，简单实用，非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。jps位于JDK的bin目录下，其作用是显示当前系统的java进程情况及其id号。jps相当于Solaris进程工具ps。不像”pgrep j...

2018-10-14 16:25:31 601

qq_34382453的博客