- 博客(0)
- 收藏
- 关注
现在esj论坛的爬虫,原来的版本是cc时代的
对在GitHub上的老版本备份工具进行了修改,让其可以访问登陆后才解锁的小说界面,可以对新域名进行缓慢爬取,爬取失败时会报错,并隔一段时间重试,且能够爬取折叠起来的章节。
因为只修改了主页面地址,所以原作者给出使用论坛和章节爬取的方法不能使用。如要使用,请自行修改代码。
使用方法:将esjbackup3.py放入工作路径中,复制登陆后esjzone的cookie值并放在对应位置,在终端输入python esjbackup3.py +所要爬取的书籍主页面地址。然后在工作路径中,输出txt纯文档。
另外,真白萌添加了cloudflare的真人验证,没有注册轻国账号,所以这里只有简单的esj爬虫,而隔壁有大佬已经做了能绕过验证的爬虫工具(需要搭建flaresolverr服务),需要强大爬虫可以去隔壁
原地址是https://github.com/ZALin/ESJ-novel-backup
发这里只是为了积分,如果作者介意的话请联系删除
最后,如果有大佬能够帮忙改进一下这个代码,真的感激不尽。因为是纯小白,代码都是AI帮忙写的,能跑没问题,但不知道有没有优化空间。
2024-06-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人