写了一个hive的UDF函数 rownum,用于记录行号,后发现一个问题,就是rownum有重复。 原因在于产生的多个map都会调用rownum,解决的方法要求你的hive sql中必须有sort by,不过这也意味着数据是在单内机器上排序。