OBELICS 开源项目使用教程

OBELICS 开源项目使用教程

OBELICSCode used for the creation of OBELICS, an open, massive and curated collection of interleaved image-text web documents, containing 141M documents, 115B text tokens and 353M images.项目地址:https://gitcode.com/gh_mirrors/ob/OBELICS

目录结构及介绍

OBELICS 项目的目录结构如下:

OBELICS/
├── build_obelics/
│   └── ...
├── obelics/
│   ├── warc_downloader.py
│   ├── html_extractor.py
│   ├── dom_tree_simplificator.py
│   ├── pre_extraction_simplificator.py
│   ├── web_document_extractor.py
│   ├── web_document_filtering.py
│   ├── web_document_line_deduplication.py
│   └── visualization/
├── .gitignore
├── LICENSE
├── README.md
└── requirements.txt

详细介绍

  • build_obelics/: 包含构建 OBELICS 项目所需的文件和脚本。
  • obelics/: 核心处理脚本目录,包括从 WARC 文件下载、HTML 文件提取、DOM 树简化、预提取简化、文档提取、过滤和行去重等步骤的脚本。
  • .gitignore: Git 忽略文件配置。
  • LICENSE: 项目许可证文件。
  • README.md: 项目说明文档。
  • requirements.txt: 项目依赖包列表。

项目的启动文件介绍

OBELICS 项目的启动文件主要集中在 obelics/ 目录下,具体包括:

  • warc_downloader.py: 用于从 Common Crawl 下载 WARC 文件。
  • html_extractor.py: 用于从 WARC 文件中提取 HTML 文件。
  • dom_tree_simplificator.py: 用于简化 HTML DOM 树。
  • pre_extraction_simplificator.py: 用于将简化后的 DOM 树转换为适合提取的结构。
  • web_document_extractor.py: 用于执行文档提取。
  • web_document_filtering.py: 用于对提取结果进行过滤。
  • web_document_line_deduplication.py: 用于对文档进行行去重。

这些脚本按照顺序执行,共同完成 OBELICS 项目的构建和数据处理流程。

项目的配置文件介绍

OBELICS 项目的配置文件主要包括:

  • .gitignore: 用于指定 Git 版本控制系统忽略的文件和目录。
  • requirements.txt: 列出了项目运行所需的 Python 依赖包及其版本。

配置文件详细说明

  • .gitignore: 该文件定义了哪些文件和目录不应该被 Git 跟踪,例如临时文件、缓存文件等。
  • requirements.txt: 该文件列出了项目运行所需的 Python 包及其版本号,可以通过 pip install -r requirements.txt 命令来安装所有依赖包。

以上是 OBELICS 开源项目的使用教程,涵盖了项目的目录结构、启动文件和配置文件的详细介绍。希望这些信息能帮助您更好地理解和使用 OBELICS 项目。

OBELICSCode used for the creation of OBELICS, an open, massive and curated collection of interleaved image-text web documents, containing 141M documents, 115B text tokens and 353M images.项目地址:https://gitcode.com/gh_mirrors/ob/OBELICS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

缪昱锨Hunter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值