乄浅醉的专栏

宁可十年不将军,不可一日不拱卒,日拱一卒,不期速成

org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2

今天在写spark 提数的时候遇到一个异常,如下Caused by: java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to sca...

2017-09-07 17:11:26

阅读数 4556

评论数 0

spark on yarn 异常记录二

通过spark-submit 向集群提交任务时,–num-executors 数量大于1即会出现异常,异常如下:17/06/04 11:47:03 WARN DefaultChannelPipeline: An exception 'java.lang.NoSuchMethodError: org...

2017-06-04 16:19:42

阅读数 1248

评论数 2

spark on yarn启动异常

一个困扰了我好久的异常:17/05/31 23:53:23 ERROR spark.SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Yarn application has alread...

2017-06-01 00:11:07

阅读数 8169

评论数 6

Crunch学习(二)

原理篇 数据管道Pipeline接口定义了Crunch中管道。MemPipeline,MRPipeline,SparkPipeline实现了Pipeline接口。public interface Pipeline { // 将数据读入集合类 <T> PCollection<...

2016-07-03 15:45:37

阅读数 540

评论数 0

Crunch 学习(一)

Crunch 提供一种Mapreduce顶层抽象,简化Mapreduce的创建,降低入门成本。Crunch的亮点在于:允许在不使用Mapreduce结构的情况下,使用java对Mapreduce管道进行建模;可以不必像使用Pig和Hive那样在编写UDF时强制使用自带的数据类型,而且Crunch不...

2016-07-03 14:20:43

阅读数 1001

评论数 0

Hive 学习笔记(三)

自定义函数当写hive UDF时,有两个选择:一是继承 UDF类,二是继承抽象类GenericUDF。这两种实现不同之处是:GenericUDF 可以处理复杂类型参数,并且继承GenericUDF更加有效率,因为UDF class 需要HIve使用反射的方式去实现。UDF一个UDF 必须满足两个条...

2016-06-27 18:48:30

阅读数 1753

评论数 0

Hive 学习笔记 (二)

存储格式Hive从两个维度对表的存储进行管理: row format 和 file format。 row format 指 行和一行中的字段如何存储。对于Hive来说,row format的定义由SerDe定义。查询表时,SerDe 把文件中字节形式的数据行反序列化为Hive内部操作数据行时所使...

2016-06-24 18:27:06

阅读数 4347

评论数 0

Hive 学习笔记(一)

DataType 数据类型hive支持以下数据类型: 有符号整数: BIGINT(8 字节),INT(4字节),SMALLINT(2字节)、TINYINT(1字节) 浮点数:FLOAT 、 DOUBLE BOOLEAN:FLASE、TRUE STRING MAP:无序键值对。键的类型必须是原子的,...

2016-06-24 14:57:50

阅读数 409

评论数 0

Pig 学习之 日志处理

以Apache 日志为例。创建加载器 @Override public Tuple getNext() throws IOException { tuple = new ArrayList<Object>(11); for (int i =...

2016-06-20 19:20:58

阅读数 788

评论数 0

Pig学习之 UDF

Eval function详细点击[官方文档](http://pig.apache.org/docs/r0.16.0/udf.html#eval-functions) Algebraic Interface代数函数实现了 这个接口,并提供了处理整个bag的机制。结果通常必须是scalar类型的,例...

2016-06-20 17:56:51

阅读数 1053

评论数 0

Pig 学习之 Join 、Group、sort、Union

joinA:(2,Tie) (4,Coat) (3,Hat) (1,Scarf) B:(Joe,2) (Hank,4) (Ali,0) (Eve,3) (Hank,2) inner joinA = LOAD ‘A’; B = LOAD ‘B’; C = JOIN A BY $0, B BY $1;...

2016-06-19 14:57:58

阅读数 3187

评论数 0

Parquet 之mapreduce

在mapreduce中使用Parquet,根据不同的序列化方式,有不同的选择,下面以Avro为例: 使用 AvroParquetInputFormat 和 AvroParquetOutputFormat @Override public int run(String[] strin...

2016-06-16 16:10:09

阅读数 5057

评论数 5

Parquet 读写

write and read MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" + " required binary le...

2016-06-08 17:52:59

阅读数 9202

评论数 1

Parquet

Columnar storage像文本、关系型数据库的表这种数据存储方式都是基于row的,这意味着所有的字段都从第一行开始写,然后写第二行,以此类推。诸如JSON、XML、Avro这种 row storage数据序列化存储格式也是基于行存储的。而列存储的设计,数据存储首先按列存储,然后按行存储。所...

2016-06-08 15:04:49

阅读数 2916

评论数 0

Hadoop 之 Avro

从结构上看,Avro和SequenceFile的很相似。schema被序列成Header的一部分,可以是反序列化变的简单。每个block都包含一系列Avro记录,默认情况下,大小为16KB。Avro数据文件支持压缩,并且可切分。序列化与反序列化使用程序从数据流中读/写 Avro数据,首先需要一个A...

2016-06-07 19:49:57

阅读数 3889

评论数 0

记我的一次JVM监控

环境: jdk1.8 ubuntu 16.04先看图 上面两张图片是jconsole监控界面,程序已运行超过12小时。先说下程序吧:主要是用来网站二维码图片的预热,生成300*300的大小的二维码,并且调用ImageMagick将图片压缩未90大小。 public static void g...

2016-06-04 19:19:05

阅读数 425

评论数 0

hadoop 之 mapreduce 特性

Sort全排序从map -> reduce ,shuffle过程中会根据key进行排序,但是这个排序只保证输入到每个reduce前的数据是有序的。那么如何产生一个全局排序的文件?最简单的方法是所有数据都在一个分区(如果不指定分区class,默认使用HashPartitioner),但是在处理...

2016-06-04 18:35:18

阅读数 1422

评论数 0

Hadoop 之 InputFormat

splits and records一个输入split就是一个由单个map来处理的输入块。每一个map只处理一个split。每个分片被切分成若干 records,每个record就是一个键/值对,map循环处理记录。split和record都是逻辑性概念。/** * <code>In...

2016-05-31 22:52:28

阅读数 4364

评论数 0

Hadoop 之 Shuffle and Sort

Mapreduce 确保每个reducer的input都是按照key 排序的。系统将 map ouputs 变成 reduce inputs输入的过程被称为 shuffle。shuffle是Mapreduce的 心脏,是奇迹发生的地方。Map side当 map函数开始产生输出时,并不简单的将它写...

2016-05-31 17:20:50

阅读数 1872

评论数 0

jdk1.8 和spring 2.5.5 兼容性问题

先看异常:Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 12643 at org.springframework.asm.ClassReader.readClass(Unknow...

2016-05-30 17:27:17

阅读数 3005

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭