3个Python技巧—可动读取,创建和运行多个模型

欢迎关注 “小白玩转Python”,发现更多 “有趣”

引言

在将代码投入生产环境时,可能需要处理组织代码文件的问题。读取、创建和运行很多数据文件是非常耗时的。本文将向你展示如何实现自动化:

· 循环遍历目录中的文件

· 创建嵌套文件

· 使用bash for循环运行一个具有不同输入的文件

这些技巧将为我们的项目节省大量的时间,希望你也会发现他们的用处!

循环遍历目录中的文件

如果我们有多个数据需要读取和处理:

├── data
│   ├── data1.csv
│   ├── data2.csv
│   └── data3.csv
└── main.py

我们可以尝试手动每次读取一个文件

import pandas as pd 
def process_data(df):
   pass
df = pd.read_csv(data1.csv)
process_data(df)
df2 = pd.read_csv(data2.csv)
process_data(df2)
df3 = pd.read_csv(data3.csv)
process_data(df3)

虽然这是可以的,但当我们有超过3个文件的时候就没有效率了。在上面的脚本中唯一变化的是读取的文件,那我们是否可以使用一个for循环来访问每个文件呢?

下面的脚本允许我们循环遍历指定目录中的文件:

import os
import pandas as pd
def loop_directory(directory: str):
  '''Loop files in the directory'''


  for filename in os.listdir(directory):
    if filename.endswith(".csv"):
      file_directory = os.path.join(directory, filename)
      print(file_directory)
      pd.read_csv(file_directory)
    
      
if __name__=='__main__':
  loop_directory('data/')
data/data3.csv
data/data2.csv
data/data1.csv

现在我们可以访问“数据”目录中的所有文件!

创建嵌套文件

有时,我们可能需要创建嵌套文件来组织代码或模型,这使得将来更容易找到它们。例如,我们可以使用“model 1”来指定特定的特性工程。

在使用model1时,我们可能希望使用不同类型的机器学习模型来训练数据("model1/XGBoost")。

在使用每种机器学习模型时,由于用于模型的超参数的差异,我们甚至可能希望保存模型的不同版本。

因此,我们的模型目录看起来可能如下所示:

model
├── model1
│   ├── NaiveBayes
│   └── XGBoost
│       ├── version_1
│       └── version_2
└── model2
    ├── NaiveBayes
    └── XGBoost
        ├── version_1
        └── version_2

为我们创建的每个模型手动创建一个嵌套文件可能需要很多时间。有没有办法让这个过程自动化?使用os.makedirs(datapath)即可。

def create_path_if_not_exists(datapath):
    '''Create the new file if not exists and save the data'''


    if not os.path.exists(datapath):
        os.makedirs(datapath) 
        
if __name__=='__main__':
create_path_if_not_exists('model/model1/XGBoost/version_1')

运行上面的文件,可以看到自动创建了嵌套文件“model/model2/XGBoost/ver

sion_2”!

现在可以保存模型或数据到新的目录!

import joblib
import os 


def create_path_if_not_exists(datapath):
    '''Create the new file if not exists and save the data'''


    if not os.path.exists(datapath):
        os.makedirs(datapath) 


if __name__=='__main__':


  # Create directory
  model_path = 'model/model2/XGBoost/version_2'
  create_path_if_not_exists(model_path)
  
  # Save file
  joblib.dump(model, model_path)

Bash for 循环:运行一个具有不同参数的文件

如果我们要运行一个具有不同参数的文件怎么办?例如,我们可能想使用相同的脚本来使用不同的模型预测数据。

import joblib


# df = ...


model_path = 'model/model1/XGBoost/version_1'
model = joblib.load(model_path)
model.predict(df)

如果一个脚本需要很长时间才能运行,并且我们要运行多个模型,那么等待脚本运行完成然后运行下一个脚本将非常耗时。有没有一种方法,我们可以告诉计算机运行模型1,2,3,…,10与一个命令行,然后去做其他事情。

我们可以使用bash for循环。首先,我们使用sys.argv使我们能够解析命令行参数。如果要在命令行上覆盖配置文件,也可以使用hydra等工具。

import sys
import joblib


# df = ...


model_type = sys.argv[1]
model_version = sys.argv[2]
model_path = f'''model/model1/{model_type}/version_{model_version}'''
print('Loading model from', model_path, 'for training')


model = joblib.load(model_path)
mode.predict(df)
>>> python train.py XGBoost 1
Loading model from model/model1/XGBoost/version_1 for training

现在我们可以使用bash for循环遍历模型的不同版本。

如果可以使用Python进行for循环,也可以在如下所示的终端上进行

$ for version in 2 3 4
> do
> python train.py XGBoost $version
> done

输入Enter以分隔行

输出的结果为:

Loading model from model/model1/XGBoost/version_1 for training
Loading model from model/model1/XGBoost/version_2 for training
Loading model from model/model1/XGBoost/version_3 for training
Loading model from model/model1/XGBoost/version_4 for training

现在可以在让脚本使用不同的模型运行的同时做其他事情了!是不是很方便!

总结

本文我们了解了如何一次自动读取和创建多个文件。还了解了如何使用不同的参数运行一个文件。手动读取、写入和运行文件所花费的时间现在可以节省下来,用于更重要的任务。是不是很棒呢~

·  END  ·

HAPPY LIFE

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: CMDB平台是一种用于IT资产管理的工具,可以帮助企业管理和跟踪IT设备、软件和服务的信息。下面是一些步骤和建议,可以帮助您使用Python编写一个简单的CMDB平台: 1. 确定需要跟踪的信息:在开始编写代码之前,您需要确定要在CMDB中跟踪哪些信息。例如,您可能需要跟踪服务器的型号、IP地址、操作系统、软件版本等。 2. 设计数据库模型:在确定要跟踪的信息后,您需要设计一个数据库模型来存储这些信息。您可以使用Python中的SQLAlchemy或Django ORM来帮助您设计和管理数据库。 3. 编写代码:一旦您设计好数据库模型,就可以开始编写代码来创建读取、更新和删除数据库中的记录。您可以使用Python的Flask或Django框架来构建一个Web应用程序,用户可以使用它来管理CMDB中的数据。 4. 部署应用程序:完成编写和测试后,您需要将应用程序部署到服务器上,以便用户可以访问它。 5. 维护和升级:一旦应用程序部署成功,您需要定期维护和升级它,以确保它始终保持最新状态并且不断改进。 请注意,以上步骤仅为指导,实际编写一个CMDB平台需要更多的细节和努力。 ### 回答2: CMDB(配置管理数据库)是一种用于管理和追踪计算机系统和网络资源的工具,Python是一种高级编程语言,非常适合用于快速开发应用程序。下面是使用Python编写一个CMDB平台的一般步骤和思路: 1. 数据库设计:首先需要设计与CMDB相关的数据库结构。可以使用Python的SQLAlchemy等ORM框架来创建数据库表,定义表的字段、关联关系等。 2. 用户认证与权限管理:通过添加用户注册、登录等功能进行用户认证,并设计权限管理模块,控制用户在CMDB平台上的操作权限。 3. 资产管理:设计资产管理功能,包括对设备、服务器、网络设备等进行添加、修改、删除、查询等操作。可以使用Python的Flask等Web框架来构建资产管理的API接口,同时也可以开发web页面来展示和操作资产信息。 4. 资源关系管理:设计与资产相关的关系管理功能,如资产与资产之间、资产与用户之间的关联关系。这可以通过定义数据库的外键关联或者创建额外的关系表来实现。 5. 日志记录与审计:为了保证系统的安全性和可追溯性,需要设计日志记录与审计功能。可以使用Python的日志库来记录用户的操作行为,并定期对日志进行审计。 6. 自动发现与监控:可以使用Python的第三方库来实现自动发现网络设备、监控服务运行状态等功能。例如,可以使用Paramiko库来连接和执行远程命令,或使用SNMP库来获取网络设备信息等。 7. 报表与统计:设计统计图表和报表展示资产数据,以帮助用户更好地了解和分析资产状况。可以使用Python的数据可视化库(如Matplotlib、Plotly等)来生成图表,并结合模板引擎(如Jinja2)来生成报表页面。 总的来说,Python作为一种灵活且易于使用的编程语言,可以有效地支持开发一个功能完善的CMDB平台。同时,Python社区中丰富的第三方库和框架也为开发者提供了许多便捷的功能和工具,使开发工作更加高效。 ### 回答3: CMDB(配置管理数据库)是用于管理和跟踪IT基础设施配置信息的平台。Python是一种高级编程语言,具有简单易学、代码规范和丰富的开源库等特点,非常适合用于快速开发CMDB平台。 首先,我们可以使用Python的web框架(如Django或Flask)来构建CMDB平台的后端。通过定义模型类来表示不同的资源类型,例如服务器、网络设备、数据库等。每个资源类型都有相应的属性,如IP地址、操作系统、厂商等。可以通过使用数据库(如MySQL或MongoDB)来存储和管理这些数据。 其次,通过编写相应的视图函数和路由来处理与前端页面之间的交互。Python的模板引擎可以用来构建动态的网页,方便展示和操作资源数据。通过使用表单来收集用户输入,并运用表单验证机制来确保输入的安全性和有效性。 此外,为了提供友好的用户界面,可以使用Python的数据可视化库(如matplotlib或plotly)来生成图表和可视化报告,以便用户更直观地查看和分析数据。 另外,在CMDB平台中,可能需要进行一些自动化的操作,如自动发现和扫描网络设备。Python的网络编程库(如Paramiko和NAPALM)可以帮助我们与网络设备进行交互,执行命令并获取配置信息。 最后,为了增加系统的可扩展性和灵活性,可以使用Python的消息队列(如RabbitMQ或Kafka)来实现异步任务处理。例如,当用户提交一个资源修改请求时,可以将该请求放入消息队列中进行处理,以提高系统的性能和并发性。 总结起来,利用Python的强大功能和广泛的库,我们可以使用该语言来开发一个功能齐全的CMDB平台。Python的易学性和丰富的生态系统,使得开发者可以更加高效地构建和维护这样一个系统。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值