自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MC的专栏

安安静静的做个技术宅

  • 博客(10)
  • 资源 (2)
  • 收藏
  • 关注

原创 记一次mapreduce程序错误调试

前两天,一同事在测试集群测试自己写的mapreduce程序遇到了错误,让我帮忙定位原因。一. 报错现象具体现象是reducetask执行到70-80%的时候就会报以下错误:java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: Cannot run p

2016-02-27 16:51:26 656

原创 linux系统关闭ipv6

1. 说明默认情况下,在启动linux系统时,ipv6模块是被加载的,同时网卡也会启动ipv6并分配对应的地址。这样就会出现ipv4和ipv6并行使用的情况。有些情况下,ipv6的使用优先级甚至高于ipv4(jdk1.4之后启动jvm时默认ipv6优先);但是在国内ipv6还没有流行开,而且,在同一台机器上同时使用ipv4和ipv6的话,有些时候会出现寻找主机名异常。前段时间就遇到了这样的问题,所以

2015-08-23 17:33:44 1413

原创 HDFS数据完整性设计

HDFS作为一种分布式文件存储系统,数据完整性是最重要的性能指标之一。HDFS是用CRC-32(32位循环冗余校验,4个字节大小)作为其数据完整性校验方式,下面分两种常态情况介绍其校验过程:IO操作 在通过client向DataNode节点写数据时,会先在client端针对写的数据每个io.bytes.per.checksum(默认512字节)字节创建一个单独的校验和,并将该校验和同数据本身一起

2015-03-23 22:05:16 354

原创 Spark sql查询执行过程

简单记录一下Spark sql(1.2版本)查询执行过程:创建SqlContext对象调用sqlContext.sql(sqlText)方法val rdd:SchemaRDD = sqlContext.sql(sqlText: string)// sql()方法实际上是new出来SchemaRDD,但是先得做些其他事new SchemaRDD(this, parseSql(sqlText)

2015-03-23 21:51:58 820

原创 hive中自定义JsonSerde处理复杂结构的json数据

使用背景hive自身提供UDF函数get_json_object 支持json数据的操作,但是使用效果并不是非常理想。如果可以像普通hive建表指定字段映射到json中的key就太好了!幸好hive本身提供了数据序列化反序列化的接口Serde,开发者只需要自定义实现Serde接口实现自己的逻辑即可。下面介绍的是通过开源工具Hive-JSON-Serde-develop来实现的序列化反序列化操作实例。

2015-03-18 21:26:11 2667

原创 说说我的HBase表设计

HBase表设计

2014-11-02 21:54:43 1053

转载 linux之awk用法

linux之awk用法  awk是一个非常棒的数字处理工具。相比于sed常常作用于一整行的处理,awk则比较倾向于将一行分为数个“字段”来处理。运行效率高,而且代码简单,对格式化的文本处理能力超强。先来一个例子:  文件a,统计文件a的第一列中是浮点数的行的浮点数的平均值。用awk来实现只需要一句话就可以搞定$cat a1.021 331#.ll   44

2014-10-28 23:06:09 314

转载 linux之sort用法

linux之sort用法sort命令是帮我们依据不同的数据类型进行排序,其语法及常用参数格式:  sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明:sort可针对文本文件的内容,以行为单位来排序。参  数:  -b   忽略每行前面开始出的空格字符。  -c   检查文件是否已经按照顺序排序。  -f   排序时,忽略大小写

2014-10-28 23:05:00 284

转载 linux之sed用法

linux之sed用法sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:         sed [-nefri] ‘command’ 输入文本        常用选项:        -n∶使用安静(silent)模式。在一般 s

2014-10-28 23:01:46 336

转载 HBase技术详细介绍

HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M

2014-10-18 14:53:50 379

Hive-JSON-Serde-develop

hive中json序列化发序列化工具,在hive建表语句中使用row format serde "org.openx.data.jsonserde.JsonSerDe"语句。

2015-03-18

SocksCap代理

SocksCap是NEC公司开发的一个免费软件,可以使得某些没有提供代理设置的客户端软件能够通过它来连接Internet。

2015-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除