fullbuild代码的一些认识

对于store的fullbuild代码解释:
store-ajoin-conf.xml配置文件的table表
属性path /store/in/目录是用来放从数据库dump下来的数据(并且不用跑map-redurce) /store/out/目录放着是跑map-redurce程序的产生的数据,还有可以放一些BI提供的数据 最终这两个目录的数据都会被join在一起
属性record_separator 为什么有些是\b\n,有些是\b 首先我们从数据库中dump下来的数据 字段以\0分割,行以\b分割 但是hadoop对dump下来的文件的分割是以\n分割的,所以我们公司对hadoop的源码进行了修改,以\b分割
对于那些不用跑map-redurce的数据,他们本来就是以\0\b分割,所以在jion操作的时候就读取record_separator的属性值\b 所以对于这些数据是record_separator的属性值\b
对于那些跑map-redurce的程序,hadoop默认的输入一行一行的输入,输出是key-value,所以但是对于输出key或者value可以为空,key主要是用来排序等操作用,但是由于redurce操作速度很慢,所以我们一般在dump数据的时候就进行了排序。还有mapper每个输出都回默认加\n为分割,所以导致要jion的数据格式为\0\b\n ,所以对于这些数据record_separator的属性值为\b\n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值