橡皮擦的周末时间,浏览互联网,畅游知识的海洋,寻找好看的动漫,然后就发现了本文的主角,一个来自台湾省的网站。
Kindle 漫畫|Kobo 漫畫|epub 漫畫大采集
数据源分析
爬取目标
本次要爬取的网站是 https://vol.moe/,该网站打开的第一眼,就给我呈现了一个大数,收录 10994
部漫画,必须拿下。
为了降低博客的篇幅,还有大家练习的难度,本文只针对列表页抓取,里面涉及的目标数据结构如下:
- 漫画标题
- 漫画评分
- 漫画详情页链接
- 作者
同步保存漫画封面,文件名为漫画标题。
漫画详情页还存在大量的标签,因不涉及数据分析,故不再进行提取。