因对hadoop集群进行数据迁移,数据迁移完毕后进行两个hive库的数据一致性的比对,不仅对源表数据进行比对,而且要同时使用两个集群加工相同数据,对加工后的数据进行数据一致性比对,下面采用md5方法的验证:
#!/bin/bash
db='hmdbi'
hive -e "use $db;show tables '*';"> tables.txt
sleep 2
cat tables.txt |while read eachline
do
hive -e "use $db;select * from $eachline;" >>$eachline.txt
md5sum $eachline.txt >> md5sum.txt
done