自学爬虫第一天,从爬小说开始。

        自学爬虫第一天,当然是从爬小说这种最基础的爬虫开始:

        目标小说:笔趣阁的择日飞升小说。 

        目标url:                        

        这里偷懒了,用列表推导式生成了一个url列表,直接从列表里面循环请求就好了,从15开始是第一章,一共抓100章的样子。 

        先进入小说第一章节的网址:https://www.bg90.cc/book/93002/15.html,按F12打开调试,点击网络部分,点击刷新,再点击文档发现有监控到html资源,先查看响应有没有我们所需要的内容,且内容是否正常,有没有加密和缺失,如果没有,那么我们就正常请求内容就行。

        接下来就特别简单了,右键点击15.html,选中复制里面的以curl(bash)格式复制,再到curlconvert.com里面构造出来请求头。

        然后定义一个保存小说的路径,这里我选择的是把所有章节写到一个txt里面。

        然后开始写请求函数:

        这里xpath里面的正则表达式,可以在调试工具里面定位到所要爬的内容行,然后右键点击复制,选中复制xPath,就可以把内容的正则复制出来。红色小方块的箭头可以更好的帮我们选中想要的内容。

        开始调用函数,在url列表里面循环调用,为了防止速度过快,我还每循环一次,停顿一秒,再进行下一个循环。

        此时,等循环执行结束了,就可以看到小说已经爬完了,这就是爬这种最简单小说的最基本的过程。

        后面熟练了可能会怕怕其它平台的比如番茄小说。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值