1.首先在百度小说网找到《西游记》
2.查看网页源代码
发现网页源代码里没有我们需要的“小说内容”,说明我们现在看到的网页都是通过异步操作返回的数据(二次加载)
3.打开控制台
点击“Network”工具栏,选择“Fetch/XHR”,再点击网页“全部章节”栏下的“查看全部”,观察控制台数据包变化,返回了一条数据包,并在Preview标签下的data/novel/item下可以看到网页中显示的所有章节的标题。于是 我们从Headers标签下General中记录我们需要的第一个URL:
https://dushu.baidu.com/api/pc/getCatalog?data={“book_id”:“4306063500”}
通过这个URL我们可以得到所有章节的名称和cid
4.点击“第一回”再次观察控制台
可以发现点击“第一回”后,XHR标签下又新增了三个链接。通过观察数据标签,可以发现在最后一个链接中novel/content下包含了小说的具体内容。于是我们找到了第二个URL:
https://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4306063500","cid":"4306063500|11348571","need_bookinfo":1}
通过这个URL我们可以得到章节内部的具体内容。
5.分析逻辑
于是我们可