2018年11月_Ebaugh

转载 Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-b2PICB/unroll/

2018-11-28 15:15:01 7518

原创 hive on spark jar包缓存问题

允许Yarn在节点上缓存必要的spark依赖关系jar，这样每次应用程序运行时都不需要分发它。在Hive 2.2.0之前，将spark-assembly jar上传到hdfs文件（例如：hdfs：// xxxx：8020 / spark-assembly.jar）并在hive-site.xml中添加以下内容 <property> <name&g...

2018-11-26 11:01:22 861

原创 hive 队列名设置

set mapreduce.job.queuename=shujubu;select daa1.* from dw_activity_antirush_result daa1 join (select applyid, count(1) as cn from dw_activity_antirush_result grou...

2018-11-26 10:54:13 1280

转载 hadoop 2.7.2 yarn中文文档—— Capacity Scheduler

yarn框架中调度器的一种-CapacityScheduler，调度器是yarn架构中的resourcemanager的一种可插拔式组件，该组件使得多用户可以共享集群资源，另外一种常用的调度器是Fair Scheduler。再次附上神图：在HOD架构中，每个用户或者用户组拥有私有的集群，这些集群是动态分配的，但是只有有限的弹性，这可能导致集群的效率低下和数据的局部性，组织间共享集群来运行多...

2018-11-23 17:30:40 517

转载 yarn任务调度及架构详解

1. YARN产生背景 MapReduce本身存在着一些问题： 1）JobTracker单点故障问题；如果Hadoop集群的JobTracker挂掉，则整个分布式集群都不能使用了。 2）JobTracker承受的访问压力大，影响系统的扩展性。 3）不支持MapReduce之外的计算框架，比如Storm、Spark、Flink等。与旧MapReduce相比，YARN采...

2018-11-23 16:41:59 2275

转载 yarn资源调度详解

Fair Scheduler将整个Yarn的可用资源划分成多个资源池，每个资源池中可以配置最小和最大的可用资源（内存和CPU）、最大可同时运行Application数量、权重、以及可以提交和管理Application的用户等。现在一般的大数据平台也都提供了可配置的界面：以TDH为例：default 也就是有一个默认的队列,首先在yarn-site.xml中，将配置参数yarn....

2018-11-23 16:40:49 1029

转载 yarn命令详解

概述YARN命令是调用bin/yarn脚本文件，如果运行yarn脚本没有带任何参数，则会打印yarn所有命令的描述。使用: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS]YARN有一个参数解析框架，采用解析泛型参数以及运行类。命令参数描述--...

2018-11-23 16:40:03 2424

转载 yarn资源调度器详解

理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。为此，Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调...

2018-11-22 20:05:45 244

原创 hive 配置文件

<property><name>hive.exec.scratchdir</name><value>/user/hive/tmp</value></property><property><name>hive.metastore.warehouse.dir&lt

2018-11-21 17:30:39 250

原创 hive集群模式配置

<property> <name>hive.metastore.uris</name> <value>thrift://10.150.133.242:9083</value> <description>Thrift URI for the remote metastore. Used by metas...

2018-11-21 17:28:04 578

原创 hive on spark 配置文件

<property> <name>hive.execution.engine</name> <value>spark</value> </property> <property> <name>hive.enable.spark.execution.engi

2018-11-21 17:26:38 322

原创 hive相关的example

hive库、表、分区、桶的一些概念：Databases：数据库，概念等同于关系型数据库的Schema；Tables：表，概念等同于关系型数据库的表；Partitions：分区，概念类似于关系型数据库的表分区，便于提高效率；Buckets (or Clusters)：分桶，同一个分区内的数据还可以细分，将相同的KEY再划分至一个桶中，这个有点类似于HASH分区，只不过这里是HASH分桶，也...

2018-11-19 14:11:30 691

原创 reids安装

centos单机安装redis 及各种报错通过wget方式直接在linux上下载Redis wget http://download.redis.io/releases/redis-2.6.17.tar.gz 解压下载的redis-2.6.17.tar.gz 文件 tar xzf redis-2.6.17.tar.gz 进入解压后的文件夹 ...

2018-11-16 15:10:43 100

原创 linux 获取当前日期变量

date +"%Y-%m-%d %H:%M:%S"date +"%Y-%m-%d"date +'%Y-%m-%d'date -d "now" +%Y-%m-%ddate +"%Y-%m-%d" -d "-24hour"date -d "yesterday" +%Y-%m-%ddate -d "1 days ago" +%Y-%m-%ddate -d &qu

2018-11-16 15:06:17 3256

转载 YARN的资源调度

一、YARN 概述　　YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序　　YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hado...

2018-11-05 14:41:31 352

转载 spark参数调优

资源参数调优了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着作业运行原理中的某个部分，我们同时也给出了一个调优的参考值。num-executors参数...

2018-11-05 11:36:13 261

转载大数据之Yarn——Capacity调度器概念以及配置

试想一下，你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些yarn的资源调度器。在Yarn框架中，调度器是一块很重要的内容。有了合适的调度规则，就可...

2018-11-05 11:17:28 242

转载 spark算子系列

一.Action操作1.first：返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd.first//输出结果为：(A,1)scala> var rdd = sc.makeRDD(Seq(10, 3, 1,

2018-11-03 18:50:09 287

转载 spark ui介绍

如果是集群模式，可以通过Spark日志服务器xxxxx:18088者yarn的UI进入到应用xxxx:8088,进入相应的Spark UI界面。主页介绍上面就是Spark的UI主页，首先进来能看到的是Spark当前应用的job页面，在上面的导航栏：1 代表job页面，在里面可以看到当前应用分析出来的所有任务，以及所有的excutors中action的执行时间。 2 代表stage...

2018-11-03 17:22:41 418

原创 hive on spark 性能参数调优

select * from stg_bankcard_auth_apply where length(idcardno) >= 1 and length(idcardno) <> 32;--该表存储文件格式为txt格式，是源文件直接load进来的，mapreduce运行不管任何sql(包括非常简单的)，直接崩溃，无法统计；文件65.5G，1.4亿条数据--同样的sql统计;...

2018-11-03 10:45:51 5375

AntKengElephant的博客