Wayback Machine Scraper 项目教程

云忱川

于 2024-08-16 09:50:15 发布

阅读量170

点赞数 2

本文链接：https://blog.csdn.net/gitblog_01142/article/details/141250762

版权

Wayback Machine Scraper 项目教程

wayback-machine-scraperA command-line utility and Scrapy middleware for scraping time series data from Archive.org's Wayback Machine.项目地址:https://gitcode.com/gh_mirrors/wa/wayback-machine-scraper

1. 项目的目录结构及介绍

wayback-machine-scraper/
├── .gitignore
├── LICENSE.txt
├── README.md
├── setup.py
└── wayback_machine_scraper/
    ├── __init__.py
    ├── cli.py
    ├── scraper.py
    └── settings.py

.gitignore: Git 忽略文件配置。
LICENSE.txt: 项目许可证文件。
README.md: 项目说明文档。
setup.py: 项目安装脚本。
wayback_machine_scraper/: 项目主目录。
- init.py: 模块初始化文件。
- cli.py: 命令行接口文件。
- scraper.py: 爬虫核心逻辑文件。
- settings.py: 项目配置文件。

2. 项目的启动文件介绍

项目的启动文件是 cli.py，它包含了命令行接口的实现。通过运行 wayback-machine-scraper 命令，可以启动项目并进行网站历史快照的抓取。

# cli.py
import argparse
from wayback_machine_scraper import scraper

def main():
    parser = argparse.ArgumentParser(description='Mirror all Wayback Machine snapshots of one or more domains within a specified time range.')
    parser.add_argument('domain', nargs='+', help='Domain(s) to scrape')
    parser.add_argument('-o', '--output-directory', help='Output directory')
    parser.add_argument('-f', '--from-timestamp', help='From timestamp')
    parser.add_argument('-t', '--to-timestamp', help='To timestamp')
    parser.add_argument('-a', '--include-regex', help='Include regex')
    parser.add_argument('-d', '--exclude-regex', help='Exclude regex')
    parser.add_argument('-c', '--concurrency', type=int, help='Concurrency level')
    parser.add_argument('-u', '--update', action='store_true', help='Update existing files')
    parser.add_argument('-v', '--verbose', action='store_true', help='Verbose output')
    args = parser.parse_args()

    scraper.run(args)

if __name__ == '__main__':
    main()

3. 项目的配置文件介绍

项目的配置文件是 settings.py，它包含了爬虫的默认配置。用户可以根据需要修改这些配置以适应不同的抓取需求。

# settings.py
BOT_NAME = 'wayback_machine_scraper'

SPIDER_MODULES = ['wayback_machine_scraper.spiders']
NEWSPIDER_MODULE = 'wayback_machine_scraper.spiders'

ROBOTSTXT_OBEY = True

CONCURRENT_REQUESTS = 16

DOWNLOAD_DELAY = 3

ITEM_PIPELINES = {
    'wayback_machine_scraper.pipelines.WaybackMachinePipeline': 300,
}

BOT_NAME: 爬虫名称。
SPIDER_MODULES: 爬虫模块路径。
NEWSPIDER_MODULE: 新爬虫模块路径。
ROBOTSTXT_OBEY: 是否遵守 robots.txt 规则。
CONCURRENT_REQUESTS: 并发请求数。
DOWNLOAD_DELAY: 下载延迟。
ITEM_PIPELINES: 数据处理管道配置。

以上是 Wayback Machine Scraper 项目的基本教程，涵盖了项目的目录结构、启动文件和配置文件的介绍。希望这些内容能帮助你更好地理解和使用该项目。

云忱川

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Wayback Machine Scraper 项目教程

Wayback Machine Scraper 项目教程 wayback-machine-scraperA command-line utility and Scrapy middleware for scraping time series data from Archive.org's Wayback Machine.项目地址:https://gitcode.com/gh_mirrors/w...
复制链接

扫一扫