1.Inventus
Inventus是一种蜘蛛,旨在通过抓取特定域及其发现的任何子域来查找特定域的子域。它是一种残废的蜘蛛,这意味着它很容易修改并扩展到您的需求。
2.演示
3. 要求
Linux - 我还没有在Windows上测试过这个。
Python 2.7 或 Python 3.3+
废品1.4.0以上。
4.安装
Inventus要求在运行之前安装Scrapy。首先,克隆存储库并输入它。
$ git clone https://github.com/nmalcolm/Inventus
$ cd Inventus
现在使用 安装所需的依赖项。pip
$ pip install -r requirements.txt
假设安装成功,Inventus 应该可以投入使用。
5. 用法
Inventus最基本的用法如下:
$ cd Inventus
$ scrapy crawl inventus -a domain=facebook.com
这告诉Scraby使用哪只蜘蛛(在本例中为"inventus"),并将域传递给蜘蛛。找到的任何子域都将发送到 。STDOUT
另一个自定义参数是 。这将设置在退出之前要发现的子域的最大限制。默认值为 10000,但不是硬性限制。subdomain_limit
$ scrapy crawl inventus -a domain=facebook.com -a subdomain_limit=100
6.出口
可以通过多种方式导出数据。最简单的方法是重定向到文件。STDOUT
$ scrapy crawl inventus -a domain=facebook.com > facebook.txt
Scrapy具有内置功能,允许您将项目导出为各种格式,包括CSV,JSON和XML。目前只会导出子域,但将来可能会更改。
$ scrapy crawl inventus -a domain=facebook.com -t csv -o Facebook.csv
7.配置
可以对 Inventus 的行为方式进行配置。默认情况下,Inventus将忽略机器人.txt,具有30秒的超时,缓存24小时的抓取数据,爬行深度为5,并使用Scrapy的AutoThrottle扩展。这些以及更多内容都可以通过编辑文件进行更改。Scrapy的设置也有很好的记录。inventus_spider/settings.py
8.错误/建议/反馈
请随时为上述任何一项打开新问题。Inventus在短短几个小时内就建成了,并且可能包含错误。你也可以在博客直接与我联系。
9.许可证
在 MIT 许可证下发布。请参阅许可证。