自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-b2PICB/unroll/

 2017年08月08日 10:35:41 imperfect00 阅读数:1276版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011961856/article/details/76886843使用pip安装时出现错误: Command "python setup.py egg_info" failed with err...

2018-11-28 15:15:01 7518

原创 hive on spark jar包缓存问题

允许Yarn在节点上缓存必要的spark依赖关系jar,这样每次应用程序运行时都不需要分发它。 在Hive 2.2.0之前,将spark-assembly jar上传到hdfs文件(例如:hdfs:// xxxx:8020 / spark-assembly.jar)并在hive-site.xml中添加以下内容 <property>   <name&g...

2018-11-26 11:01:22 861

原创 hive 队列名设置

set mapreduce.job.queuename=shujubu;select daa1.*  from dw_activity_antirush_result daa1  join (select applyid,               count(1) as cn          from dw_activity_antirush_result         grou...

2018-11-26 10:54:13 1280

转载 hadoop 2.7.2 yarn中文文档—— Capacity Scheduler

yarn框架中调度器的一种-CapacityScheduler,调度器是yarn架构中的resourcemanager的一种可插拔式组件,该组件使得多用户可以共享集群资源,另外一种常用的调度器是Fair Scheduler。再次附上神图:在HOD架构中,每个用户或者用户组拥有私有的集群,这些集群是动态分配的,但是只有有限的弹性,这可能导致集群的效率低下和数据的局部性,组织间共享集群来运行多...

2018-11-23 17:30:40 517

转载 yarn任务调度及架构详解

1. YARN产生背景  MapReduce本身存在着一些问题:  1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。  2)JobTracker承受的访问压力大,影响系统的扩展性。  3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink等。  与旧MapReduce相比,YARN采...

2018-11-23 16:41:59 2275

转载 yarn资源调度详解

Fair Scheduler将整个Yarn的可用资源划分成多个资源池,每个资源池中可以配置最小和最大的可用资源(内存和CPU)、最大可同时运行Application数量、权重、以及可以提交和管理Application的用户等。现在一般的大数据平台也都提供了可配置的界面:以TDH为例:default 也就是有一个默认的队列,首先在yarn-site.xml中,将配置参数yarn....

2018-11-23 16:40:49 1029

转载 yarn命令详解

概述YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述。使用: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS]YARN有一个参数解析框架,采用解析泛型参数以及运行类。命令参数     描述--...

2018-11-23 16:40:03 2424

转载 yarn资源调度器详解

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调...

2018-11-22 20:05:45 244

原创 hive 配置文件

<property><name>hive.exec.scratchdir</name><value>/user/hive/tmp</value></property><property><name>hive.metastore.warehouse.dir&lt

2018-11-21 17:30:39 250

原创 hive集群模式配置

 <property>    <name>hive.metastore.uris</name>    <value>thrift://10.150.133.242:9083</value>    <description>Thrift URI for the remote metastore. Used by metas...

2018-11-21 17:28:04 578

原创 hive on spark 配置文件

<property>    <name>hive.execution.engine</name>    <value>spark</value>  </property>  <property>    <name>hive.enable.spark.execution.engi

2018-11-21 17:26:38 322

原创 hive相关的example

hive库、表、分区、桶的一些概念:Databases:数据库,概念等同于关系型数据库的Schema;Tables:表,概念等同于关系型数据库的表;Partitions:分区,概念类似于关系型数据库的表分区,便于提高效率;Buckets (or Clusters):分桶,同一个分区内的数据还可以细分,将相同的KEY再划分至一个桶中,这个有点类似于HASH分区,只不过这里是HASH分桶,也...

2018-11-19 14:11:30 691

原创 reids安装

centos单机安装redis 及各种报错    通过wget方式直接在linux上下载Redis    wget http://download.redis.io/releases/redis-2.6.17.tar.gz    解压下载的redis-2.6.17.tar.gz 文件    tar xzf redis-2.6.17.tar.gz    进入解压后的文件夹  ...

2018-11-16 15:10:43 100

原创 linux 获取当前日期变量

date +"%Y-%m-%d %H:%M:%S"date +"%Y-%m-%d"date +'%Y-%m-%d'date -d "now" +%Y-%m-%ddate +"%Y-%m-%d" -d "-24hour"date -d "yesterday" +%Y-%m-%ddate -d "1 days ago" +%Y-%m-%ddate -d &qu

2018-11-16 15:06:17 3256

转载 YARN的资源调度

一、YARN 概述   YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序  YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hado...

2018-11-05 14:41:31 352

转载 spark参数调优

资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数...

2018-11-05 11:36:13 261

转载 大数据之Yarn——Capacity调度器概念以及配置

试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可...

2018-11-05 11:17:28 242

转载 spark算子系列

一.Action操作1.first:返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd.first//输出结果为:(A,1)scala> var rdd = sc.makeRDD(Seq(10, 3, 1,

2018-11-03 18:50:09 287

转载 spark ui介绍

如果是集群模式,可以通过Spark日志服务器xxxxx:18088者yarn的UI进入到应用xxxx:8088,进入相应的Spark UI界面。主页介绍上面就是Spark的UI主页,首先进来能看到的是Spark当前应用的job页面,在上面的导航栏:1 代表job页面,在里面可以看到当前应用分析出来的所有任务,以及所有的excutors中action的执行时间。 2 代表stage...

2018-11-03 17:22:41 418

原创 hive on spark 性能参数调优

select * from stg_bankcard_auth_apply where length(idcardno) >= 1 and length(idcardno) <> 32;--该表存储文件格式为txt格式,是源文件直接load进来的,mapreduce运行不管任何sql(包括非常简单的),直接崩溃,无法统计;文件65.5G,1.4亿条数据--同样的sql统计;...

2018-11-03 10:45:51 5375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除