萌面大盗mc-CSDN博客

原创记一次mapreduce程序错误调试

前两天，一同事在测试集群测试自己写的mapreduce程序遇到了错误，让我帮忙定位原因。一. 报错现象具体现象是reducetask执行到70-80%的时候就会报以下错误:java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: Cannot run p

2016-02-27 16:51:26 656

原创 linux系统关闭ipv6

1. 说明默认情况下，在启动linux系统时，ipv6模块是被加载的，同时网卡也会启动ipv6并分配对应的地址。这样就会出现ipv4和ipv6并行使用的情况。有些情况下，ipv6的使用优先级甚至高于ipv4(jdk1.4之后启动jvm时默认ipv6优先)；但是在国内ipv6还没有流行开，而且，在同一台机器上同时使用ipv4和ipv6的话，有些时候会出现寻找主机名异常。前段时间就遇到了这样的问题，所以

2015-08-23 17:33:44 1413

原创 HDFS数据完整性设计

HDFS作为一种分布式文件存储系统，数据完整性是最重要的性能指标之一。HDFS是用CRC-32(32位循环冗余校验，4个字节大小)作为其数据完整性校验方式，下面分两种常态情况介绍其校验过程：IO操作在通过client向DataNode节点写数据时，会先在client端针对写的数据每个io.bytes.per.checksum(默认512字节)字节创建一个单独的校验和，并将该校验和同数据本身一起

2015-03-23 22:05:16 354

原创 Spark sql查询执行过程

简单记录一下Spark sql（1.2版本）查询执行过程：创建SqlContext对象调用sqlContext.sql(sqlText)方法val rdd:SchemaRDD = sqlContext.sql(sqlText: string)// sql()方法实际上是new出来SchemaRDD,但是先得做些其他事new SchemaRDD(this, parseSql(sqlText)

2015-03-23 21:51:58 820

原创 hive中自定义JsonSerde处理复杂结构的json数据

使用背景hive自身提供UDF函数get_json_object 支持json数据的操作，但是使用效果并不是非常理想。如果可以像普通hive建表指定字段映射到json中的key就太好了！幸好hive本身提供了数据序列化反序列化的接口Serde，开发者只需要自定义实现Serde接口实现自己的逻辑即可。下面介绍的是通过开源工具Hive-JSON-Serde-develop来实现的序列化反序列化操作实例。

2015-03-18 21:26:11 2667

原创说说我的HBase表设计

HBase表设计

2014-11-02 21:54:43 1053

转载 linux之awk用法

linux之awk用法　　awk是一个非常棒的数字处理工具。相比于sed常常作用于一整行的处理，awk则比较倾向于将一行分为数个“字段”来处理。运行效率高，而且代码简单，对格式化的文本处理能力超强。先来一个例子：　　文件a，统计文件a的第一列中是浮点数的行的浮点数的平均值。用awk来实现只需要一句话就可以搞定$cat a1.021 331#.ll 44

2014-10-28 23:06:09 314

转载 linux之sort用法

linux之sort用法sort命令是帮我们依据不同的数据类型进行排序，其语法及常用参数格式：　　sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明：sort可针对文本文件的内容，以行为单位来排序。参　　数： -b 忽略每行前面开始出的空格字符。 -c 检查文件是否已经按照顺序排序。 -f 排序时，忽略大小写

2014-10-28 23:05:00 284

转载 linux之sed用法

linux之sed用法sed是一个很好的文件处理工具，本身是一个管道命令，主要是以行为单位进行处理，可以将数据行进行替换、删除、新增、选取等特定工作，下面先了解一下sed的用法sed命令行格式为： sed [-nefri] ‘command’ 输入文本常用选项： -n∶使用安静(silent)模式。在一般 s

2014-10-28 23:01:46 336

转载 HBase技术详细介绍

HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行M

2014-10-18 14:53:50 379

Hive-JSON-Serde-develop

hive中json序列化发序列化工具,在hive建表语句中使用row format serde "org.openx.data.jsonserde.JsonSerDe"语句。

2015-03-18

SocksCap代理

SocksCap是NEC公司开发的一个免费软件,可以使得某些没有提供代理设置的客户端软件能够通过它来连接Internet。

2015-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人