自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 问答 (3)
  • 收藏
  • 关注

原创 Spark Structed Streaming 入门详解

一、概述Structed Streaming 是一个可扩展和容错能力构建与Spark Sql引擎上的流处理引擎。你可以像采用批次处理静态数据一样处理流式数据。随着流数据的不断流入,Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行 streaming aggregations, event-time windows, stream-to...

2018-11-26 20:18:33 1844

原创 大数据中常用的几种数据格式对比(avro、orc、parquet)

不同数据格式特点1). AVRO:主要为行存储设计的主要目标是为了满足schema evolutionschema和数据保存在一起2). ORC:面向列的存储格式由Hadoop中RC files 发展而来,比RC file更大的压缩比,和更快的查询速度Schema 存储在footer中不支持schema evolution为hive而生,在许多non-hive MapR...

2018-11-26 17:41:18 10290 5

原创 shell命令之--xargs

功能简介:1.将参数列表转换成小块分段传递给其他命令,避免参数列表过长2.从管道或者stdin获取数据,过滤处理(捕获一个命令的输出,然后传递给另外一个命令)3.能够对输入中的换行和空白进行处理应用举例:当你尝试用rm 删除太多的文件,你可能得到一个错误信息:/bin/rm Argument list too long. 用xargs 去避免这个问题find ~ -name ‘*....

2018-11-22 23:20:31 347

原创 集群无法启动多个spark任务,资源无法分配问题

问题描述:在集群上同时提交多个任务,但是发现集群的资源还有很多,但是任务却无法起来,一直处于Accepted状态解决方法:这种情况一般是由于yarn可调度的资源不够而并非集群的资源不够,修改Hadoop/etc/hadoop/capacity-scheduler.xml,将value从0.1改为0.5,增加yarn可调度的资源数<property> <name&g...

2018-11-22 22:29:08 1201

原创 集群主备切换后任务未能在新的主节点上自动重启

问题描述:在集群运行过程中发现一旦主备切换后,原来正常运行的任务在新的主节点上不能自动从启解决方法:在yarn-site.xml中增加以下配置项:<property> <description>Enable RM to recover state after starting. If true, then yarn.resourcemanager.stor...

2018-11-22 22:27:12 289

原创 spark提交任务参数–executor-cores设置不起作用

问题描述1.虽然目前大多数平台内置Application在提交时,只配置了–num-executors和–executor-memory参数,但是其他APP的开发者可能会配置–executor-cores参数。举个例子:./spark-submit –master yarn-client –executor-cores 4 –num-executors 6 –executor-memory...

2018-11-22 20:13:25 7436

原创 hive 事务表锁泄露(冲突)问题

hive 锁泄露问题问题描述: hive 表一个分区只能有一个程序/线程获得锁/写入,但发现有两个程序/线程获得了锁,最后在事务提交的时候检查到了冲突。(频率不高,一天一两次的样子)问题分析: hive 客户端实现在本该原子操作的 获取事务ID、启动事务 拆成了需要跨网操作的两步,导致实际串行操作的两次操作,其 [事务启动ID, 事务提交ID] 值对是交叉的(交叉则判断为冲突)。ps. 具体...

2018-11-22 19:29:20 761

原创 mysql多线程update发生死锁

问题描述mysql使用InnoDB引擎,在多线程并发的情况下,发现对数据库表中的数据进行更新操作时发生了死锁基础知识mysql 引擎1、MyISAM:默认表类型,它是基于传统的ISAM类型,ISAM是Indexed Sequential Access Method (有索引的顺序访问方法) 的缩写,它是存储记录和文件的标准方法。不是事务安全的,而且不支持外键,如果执行大量的select,i...

2018-11-14 10:47:06 10462 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除