作者|Khuyen Tran 编译|VK 来源|Towards Data Science
动机
将代码投入生产时,你很可能需要处理代码文件的组织。读取、创建和运行许多数据文件非常耗时。本文将向你展示如何自动
循环访问目录中的文件
如果不存在嵌套文件,创建它们
使用bash for loop运行一个具有不同输入的文件
这些技巧为我在数据科学项目中节省了很多时间。我希望你也会发现它们有用!
循环访问目录中的文件
如果我们要像这样读取和处理多个数据:
├── data
│ ├── data1.csv
│ ├── data2.csv
│ └── data3.csv
└── main.py
我们可以尝试一次手动读取一个文件
import pandas as pd
def process_data(df):
pass
df = pd.read_csv(data1.csv)
process_data(df)
df2 = pd.read_csv(data2.csv)
process_data(df2)
df3 = pd.read_csv(data3.csv)
process_data(df3)
当我们有3个以上的数据时,这是可以的,但不是有效的。如果我们在上面的脚本中只更改了数据,为什么不使用for循环来访问每个数据呢?
下