SplitHugeFileIntoLittleToTrain
将大文件分割成小文件进行处理训练
shell文件 SplitHugeToLittle.sh
#删除生成的已经生成的多个小数据集,便于shell定时任务循环执行
rm ./data/low_frequency/*
#将大数据集文件low_frequency_event.dat按每个文件10000行进行分割成小数据集文件,小数据集文件前缀为 split_file
split -l 10000 ./data/low_frequency_event.dat split_file
#将生成的多个小数据集文件移到处理的目标文件夹下
mv ./split_file* ./data/low_frequency/
#循环处理目标文件夹下已经被分割的多个小数据集文件
dir=`ls ./data/low_frequency/`
for EachFile in $dir
do
cat "./data/low_frequency/"$EachFile | python generate_pagei2idata_geohash_location.py >> pagei2idata.ruku.G
done