Wikipedia_Word2vec 项目使用文档
1. 项目的目录结构及介绍
Wikipedia_Word2vec/
├── data/
│ ├── raw/
│ └── processed/
├── src/
│ ├── preprocess.py
│ ├── train.py
│ └── evaluate.py
├── config/
│ ├── default.yaml
│ └── custom.yaml
├── README.md
├── requirements.txt
└── main.py
- data/: 存放原始数据和预处理后的数据。
- raw/: 原始数据文件。
- processed/: 预处理后的数据文件。
- src/: 源代码目录。
- preprocess.py: 数据预处理脚本。
- train.py: 模型训练脚本。
- evaluate.py: 模型评估脚本。
- config/: 配置文件目录。
- default.yaml: 默认配置文件。
- custom.yaml: 自定义配置文件。
- README.md: 项目说明文档。
- requirements.txt: 项目依赖文件。
- main.py: 项目启动文件。
2. 项目的启动文件介绍
main.py
main.py
是项目的启动文件,负责调用预处理、训练和评估脚本。其主要功能如下:
- 读取配置文件。
- 调用预处理脚本进行数据预处理。
- 调用训练脚本进行模型训练。
- 调用评估脚本进行模型评估。
import argparse
from src.preprocess import preprocess
from src.train import train
from src.evaluate import evaluate
def main(config_file):
# 读取配置文件
# 调用预处理脚本
preprocess(config_file)
# 调用训练脚本
train(config_file)
# 调用评估脚本
evaluate(config_file)
if __name__ == "__main__":
parser = argparse.ArgumentParser(description="Wikipedia_Word2vec")
parser.add_argument("--config", default="config/default.yaml", help="配置文件路径")
args = parser.parse_args()
main(args.config)
3. 项目的配置文件介绍
config/default.yaml
default.yaml
是项目的默认配置文件,包含预处理、训练和评估的参数设置。
data:
raw_path: "data/raw"
processed_path: "data/processed"
preprocess:
min_count: 10
window_size: 10
train:
size: 300
negative: 15
sample: 1e-5
threads: 24
binary: 1
evaluate:
accuracy_path: "results/enwiki_skip_size300_win10"
config/custom.yaml
custom.yaml
是自定义配置文件,用户可以根据需要修改参数。
data:
raw_path: "data/custom_raw"
processed_path: "data/custom_processed"
preprocess:
min_count: 5
window_size: 5
train:
size: 200
negative: 10
sample: 1e-4
threads: 12
binary: 0
evaluate:
accuracy_path: "results/custom_enwiki_skip_size200_win5"
通过修改配置文件,用户可以灵活调整项目的运行参数。