自学爬虫第一天,当然是从爬小说这种最基础的爬虫开始:
目标小说:笔趣阁的择日飞升小说。
目标url:
这里偷懒了,用列表推导式生成了一个url列表,直接从列表里面循环请求就好了,从15开始是第一章,一共抓100章的样子。
先进入小说第一章节的网址:https://www.bg90.cc/book/93002/15.html,按F12打开调试,点击网络部分,点击刷新,再点击文档发现有监控到html资源,先查看响应有没有我们所需要的内容,且内容是否正常,有没有加密和缺失,如果没有,那么我们就正常请求内容就行。
接下来就特别简单了,右键点击15.html,选中复制里面的以curl(bash)格式复制,再到curlconvert.com里面构造出来请求头。
然后定义一个保存小说的路径,这里我选择的是把所有章节写到一个txt里面。
然后开始写请求函数:
这里xpath里面的正则表达式,可以在调试工具里面定位到所要爬的内容行,然后右键点击复制,选中复制xPath,就可以把内容的正则复制出来。红色小方块的箭头可以更好的帮我们选中想要的内容。
开始调用函数,在url列表里面循环调用,为了防止速度过快,我还每循环一次,停顿一秒,再进行下一个循环。
此时,等循环执行结束了,就可以看到小说已经爬完了,这就是爬这种最简单小说的最基本的过程。
后面熟练了可能会怕怕其它平台的比如番茄小说。