最近在复习以前学过的pyquery,正好在看《剑来》(当然不会说是后者居多了.....),毕竟没有需求就没有提高嘛!b话不多说。
目标:
- 获取小说每个章节的url
- 因为每页只有40章,所以需要遍历出所有章节
- 根据每个章节的url获取相对应的文章内容
- 保存
获取章节url
图片有点问题,大家将就着看就行,也就是瞅瞅看章节的url在哪个节点下而已
接下来分析下一章怎么遍历,一共有两种方法:
第一种就是获取a标签的href属性的值并与原url做拼接;第二种就是看a标签的href值是否有规律,然后用一个for循环遍历出来。本文章选的是第二种方法,因为第一种还得获取a标