大数据预处理,读写文件为每一行数据增加一个标识ID(JAVA)
对包含多行数据的数据集进行预处理,读入文本文件数据集,为每一条记录增加一个唯一的ID,并保存成一个新的文本文件。其中每行的ID生成规则为:每一条记录对应生成0-33随机数,每个数对应一个特定省份,最后原始记录和新生成的省份标签一起写入新的文本文件中。Shell终端执行语句#!/bin/bash#下面设置输入文件,把用户执行pre_deal.sh命令时提供的第一个参数作为输入文件名称infile...
原创
2018-06-21 15:33:45 ·
1416 阅读 ·
0 评论