开源项目 dat-science
使用教程
1. 项目的目录结构及介绍
dat-science/
├── data/
│ ├── raw/
│ ├── processed/
│ └── interim/
├── notebooks/
│ ├── exploratory/
│ └── reports/
├── src/
│ ├── data/
│ ├── features/
│ ├── models/
│ └── visualization/
├── config/
│ ├── config.yaml
│ └── logging.yaml
├── .gitignore
├── README.md
├── requirements.txt
└── setup.py
目录结构介绍
data/
: 存储数据文件的目录,包含原始数据、处理后的数据和临时数据。raw/
: 原始数据。processed/
: 处理后的数据。interim/
: 临时数据。
notebooks/
: Jupyter Notebook 文件的目录,用于数据探索和报告生成。exploratory/
: 探索性分析的 Notebook。reports/
: 生成的报告 Notebook。
src/
: 源代码目录,包含数据处理、特征工程、模型训练和可视化代码。data/
: 数据处理脚本。features/
: 特征工程脚本。models/
: 模型训练脚本。visualization/
: 可视化脚本。
config/
: 配置文件目录,包含项目配置和日志配置。config.yaml
: 项目配置文件。logging.yaml
: 日志配置文件。
.gitignore
: Git 忽略文件配置。README.md
: 项目说明文档。requirements.txt
: 项目依赖文件。setup.py
: 项目安装脚本。
2. 项目的启动文件介绍
项目的启动文件通常位于 src/
目录下,例如 src/main.py
。该文件负责初始化项目配置、加载数据、调用特征工程和模型训练等步骤。
# src/main.py
import config.config as cfg
from data.make_dataset import load_data
from features.build_features import preprocess_data
from models.train_model import train_model
def main():
# 加载配置
config = cfg.load_config()
# 加载数据
data = load_data(config['data_path'])
# 预处理数据
processed_data = preprocess_data(data)
# 训练模型
model = train_model(processed_data)
# 保存模型
model.save(config['model_path'])
if __name__ == "__main__":
main()
3. 项目的配置文件介绍
项目的配置文件位于 config/
目录下,主要包括 config.yaml
和 logging.yaml
。
config.yaml
data_path: 'data/raw/dataset.csv'
model_path: 'models/trained_model.pkl'
logging.yaml
version: 1
disable_existing_loggers: false
formatters:
simple:
format: '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
handlers:
console:
class: logging.StreamHandler
level: DEBUG
formatter: simple
stream: ext://sys.stdout
loggers:
main:
level: DEBUG
handlers: [console]
propagate: no
root:
level: DEBUG
handlers: [console]
通过这些配置文件,可以方便地管理项目的数据路径、模型保存路径以及日志记录方式。