- 博客(10)
- 资源 (2)
- 收藏
- 关注
原创 记一次mapreduce程序错误调试
前两天,一同事在测试集群测试自己写的mapreduce程序遇到了错误,让我帮忙定位原因。一. 报错现象具体现象是reducetask执行到70-80%的时候就会报以下错误:java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: Cannot run p
2016-02-27 16:51:26 656
原创 linux系统关闭ipv6
1. 说明默认情况下,在启动linux系统时,ipv6模块是被加载的,同时网卡也会启动ipv6并分配对应的地址。这样就会出现ipv4和ipv6并行使用的情况。有些情况下,ipv6的使用优先级甚至高于ipv4(jdk1.4之后启动jvm时默认ipv6优先);但是在国内ipv6还没有流行开,而且,在同一台机器上同时使用ipv4和ipv6的话,有些时候会出现寻找主机名异常。前段时间就遇到了这样的问题,所以
2015-08-23 17:33:44 1413
原创 HDFS数据完整性设计
HDFS作为一种分布式文件存储系统,数据完整性是最重要的性能指标之一。HDFS是用CRC-32(32位循环冗余校验,4个字节大小)作为其数据完整性校验方式,下面分两种常态情况介绍其校验过程:IO操作 在通过client向DataNode节点写数据时,会先在client端针对写的数据每个io.bytes.per.checksum(默认512字节)字节创建一个单独的校验和,并将该校验和同数据本身一起
2015-03-23 22:05:16 354
原创 Spark sql查询执行过程
简单记录一下Spark sql(1.2版本)查询执行过程:创建SqlContext对象调用sqlContext.sql(sqlText)方法val rdd:SchemaRDD = sqlContext.sql(sqlText: string)// sql()方法实际上是new出来SchemaRDD,但是先得做些其他事new SchemaRDD(this, parseSql(sqlText)
2015-03-23 21:51:58 820
原创 hive中自定义JsonSerde处理复杂结构的json数据
使用背景hive自身提供UDF函数get_json_object 支持json数据的操作,但是使用效果并不是非常理想。如果可以像普通hive建表指定字段映射到json中的key就太好了!幸好hive本身提供了数据序列化反序列化的接口Serde,开发者只需要自定义实现Serde接口实现自己的逻辑即可。下面介绍的是通过开源工具Hive-JSON-Serde-develop来实现的序列化反序列化操作实例。
2015-03-18 21:26:11 2667
转载 linux之awk用法
linux之awk用法 awk是一个非常棒的数字处理工具。相比于sed常常作用于一整行的处理,awk则比较倾向于将一行分为数个“字段”来处理。运行效率高,而且代码简单,对格式化的文本处理能力超强。先来一个例子: 文件a,统计文件a的第一列中是浮点数的行的浮点数的平均值。用awk来实现只需要一句话就可以搞定$cat a1.021 331#.ll 44
2014-10-28 23:06:09 314
转载 linux之sort用法
linux之sort用法sort命令是帮我们依据不同的数据类型进行排序,其语法及常用参数格式: sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明:sort可针对文本文件的内容,以行为单位来排序。参 数: -b 忽略每行前面开始出的空格字符。 -c 检查文件是否已经按照顺序排序。 -f 排序时,忽略大小写
2014-10-28 23:05:00 284
转载 linux之sed用法
linux之sed用法sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为: sed [-nefri] ‘command’ 输入文本 常用选项: -n∶使用安静(silent)模式。在一般 s
2014-10-28 23:01:46 336
转载 HBase技术详细介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M
2014-10-18 14:53:50 379
Hive-JSON-Serde-develop
2015-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人