百万文件的产生与智能分配——shell与awk实现

涉及知识点:

操作系统 Linux(centos 7)

1.本程序最终希望实现的功能是:在我们平时工作中,有的时候我们需要自动产生大量的文件,比如说我们使用高斯交作业,有些输入文件可以通过程序来自动产生,那么我就希望能够有一个程序能够批量产生大量的文件,并且在产生了这些文件以后,能够自动分组,分组的目的就是希望能够充分利用当前服务器的核数来进行计算。

2.当前这个程序能够实现的是,比如我们的服务器有64核,我可以分配CPU核数来进行并行操作,想要产生100W个文件,我将其分成8组,也就是说一组使用8核来产生——解压——移动12.5W文件,最终通过时间对比,发现效率大大增加。

仅生成100W文件(不包含解压与移动),用不同数量核数的效率如下图所示:

 

2.代码展示

第一部分先展示最核心的代码段:

starttime=`date +'%Y-%m-%d %H:%M:%S'`            #计算所用时间
for((i=1;i<=1;i++))
do
  taskset -c $i sh ./generate_$i.sh&             #指定核数计算
done
wait                                             #等待结束后再进行下一步
for((i=1;i<=1;i++))
do
  taskset -c $i sh ./tar_$i.sh&
done
wait
for((i=1;i<=1;i++))
do
  taskset -c $i sh ./mv_$i.sh&
done
wait
for((i=1;i<=1;i++))
do
  cd group_$i
  tar -xzvf group_$i.tar.gz
  cd ..
done
wait
gawk -f ./clear.awk
endtime=`date +'%Y-%m-%d %H:%M:%S'`
start_seconds=$(date --date="$starttime" +%s);
end_seconds=$(date --date="$endtime" +%s);
echo "(产生-压缩-移动-解压)本次运行时间: "$((end_seconds-start_seconds))"s"

第二部分就是完整代码,因为我想用一个awk程序就完成所有的步骤,所以我利用了awk来写shell和awk,强迫症患者~

BEGIN{
#调用的核数
CORE=1
#生成的文件数
file_number=1000000
#步长
step=file_number/CORE

print"本次程序将产生——解压——移动"file_number"个文件"
print"本次分成"CORE"组"

#——————————————————————————创建mv,tar,及总sh文件——————————————————#
bar1=1
if(bar1==1){
 #创建产生文件的awk和sh
 for(i=1;i<=CORE;i++)
 {
  system("touch " "generate_"i".sh")
  system("touch " "generate_"i".awk")
 }
 #创建分组文件夹
 for(i=1;i<=CORE;i++)
 {
   system("mkdir " "group_"i"")
 }
 #创建成组的mv文件
 for(i=1;i<=CORE;i++)
 {
   system("touch " "mv_"i".sh")
   printf"mv group_"i".tar.gz group_"i"">"mv_"i".sh"
 }
 #产生总并发sh文件
 system("touch " "all_sh.sh")
 print "starttime=`date +'%Y-%m-%d %H:%M:%S'`">"all_sh.sh"
 print"for((i=1;i<="CORE";i++))">"all_sh.sh"
 print"do">"all_sh.sh"
 print"  taskset -c $i sh generate_$i.sh&">"all_sh.sh"
 print"done">"all_sh.sh"
 print"wait">"all_sh.sh"
 print"for((i=1;i<="CORE";i++))">"all_sh.sh"
 print"do">"all_sh.sh"
 print"  taskset -c $i sh tar_$i.sh&">"all_sh.sh"
 print"done">"all_sh.sh"
 print"wait">"all_sh.sh"
 print"for((i=1;i<="CORE";i++))">"all_sh.sh"
 print"do">"all_sh.sh"
 print"  taskset -c $i sh mv_$i.sh&">"all_sh.sh"
 print"done">"all_sh.sh"
 print"wait">"all_sh.sh"
 print"for((i=1;i<="CORE";i++))">"all_sh.sh"
 print"do">"all_sh.sh"
 print"  cd group_$i">"all_sh.sh"
 print"  tar -xzvf group_$i.tar.gz">"all_sh.sh"
 print"  cd ..">"all_sh.sh"
 print"done">"all_sh.sh"
 print"wait">"all_sh.sh"
 print"gawk -f clear.awk">"all_sh.sh"
 print "endtime=`date +'%Y-%m-%d %H:%M:%S'`">"all_sh.sh"
 print "start_seconds=$(date --date=\"$starttime\" +%s);">"all_sh.sh"
 print "end_seconds=$(date --date=\"$endtime\" +%s);">"all_sh.sh"
 print "echo \"(产生-压缩-移动-解压)本次运行时间: \"$((end_seconds-start_seconds))\"s\"">"all_sh.sh"
}
#————————————————————————————————————————————————————————#

#————————————————————————————产生主体文件——————————————————————————#
bar2=1
if(bar2==1)
{
 #递进数组
 progressive[1]=1
 progressive_step=step
 for(i=2;i<=CORE+1;i++)
 {
   progressive[i]=progressive_step
   progressive_step=progressive_step+step
 }
 for(i=1;i<=CORE;i++)
 {
 #产生文件的awk内容
   print "BEGIN{">"generate_"i".awk"
   print "printf\"tar -czvf group_"i".tar.gz \">\"tar_"i".sh\"">"generate_"i".awk"
   print "system(\"touch \" \"tar_"i".sh\")">"generate_"i".awk"
   print "for(i="progressive[i]";i<="progressive[i+1]";i++){"> "generate_"i".awk"
   print " system(\"touch   \"i\".gjf&\")"> "generate_"i".awk"
   print " printf\" \"i\".gjf\">\"tar_"i".sh\"}}" > "generate_"i".awk"
 #产生文件的sh内容
   print "gawk -f generate_"i".awk">"generate_"i".sh"
 }
}

#————————————————————————clean文件,清除所有已经用完的程序————————————————————#
system("touch " "clear.awk")
print"BEGIN{">"clear.awk"
print"CORE="CORE"">"clear.awk"
print"for(i=1;i<=CORE;i++)">"clear.awk"
print"{">"clear.awk"
print"  system(\"rm " "tar_\"i\".sh\")">"clear.awk"
print"  system(\"rm " "mv_\"i\".sh\")">"clear.awk"
print"  system(\"rm \" \"generate_\"i\".sh\")">"clear.awk"
print"  system(\"rm \" \"generate_\"i\".awk\")" >"clear.awk"
print"}">"clear.awk"
print"system(\"rm \" \"all_sh.sh\")">"clear.awk"
print"system(\"rm \" \"*.gjf\")">"clear.awk"
print"}">"clear.awk"
#————————————————————————————————————————————————————————#

#—————————————————————————运行总程序————————————————————————#
system("sh " "all_sh.sh")
#——————————————————————————————————————————————————————#
}

运行结果如下(百万文件的产生—压缩—移动—解压):

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值