使用正则表达式爬取一本喜欢的小说
这个爬虫的案例是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更深入的了解。
1. 信息来源:
努努书坊。爬取的小说:三国演义。链接为:https://www.kanunu8.com/files/old/2011/2447.html
2. 解析需要爬取的信息:
进入主页,我们可以看到如上图所示的信息,我们需要爬取的就是上图中的所有内容。即每个章节中的内容。这是一个两层爬虫,即我们首先要得到每个章节的链接,再通过每个章节的链接得到每个章节的信息。
我们在主页中点击右键——>查看网页源代码——>找到对应的章节的信息——>如图所示——>获取出对应的链接信息和标题
我们对上图所示的信息进行分析,可以发现:(匹配就得多试验,每个人的匹配方式可能不同,多尝试)