python 爬取免费小说

本文介绍如何使用Python爬取笔趣阁网站上的免费小说。首先确定目标网站和小说,然后通过三种方法(BeautifulSoup、正则表达式、etree.HTML)获取章节名和URL,最后抓取每个章节的内容。爬虫初学者可以参考本文进行实践。
摘要由CSDN通过智能技术生成

爬取笔趣阁小说

类似笔趣阁这类无验证,不用登陆的网页爬取数据是相当简单的了,在获取到网页后抓取想要的数据就可以了。

初步想法

在爬取数据前首先要想好需要做些什么,有了大致的想法后才能有效的完成:

  1. 首先需要获取到想要爬取的网站,这里的网站为http://www.xbiquge.la
  2. 在进入网站后选取自己想看的小说后获取小说所有的章节名称以及每章节的url在这里我想看的是斗罗大陆Ⅰ,url:http://www.xbiquge.la/1/1710/
  3. 在获取到每一个章节的url后,我就需要对每一个url都去发起请求来获取每一章节下的文本内容。

三种获取章节名和url的方法

1)BeautifulSoup模块
在这里插入图片描述
由于不怎么会用bs4来获取,对于<dd><a>content</a></dd>这样的标签不会简便的获取方法所以写的比较复杂,还是以自己的喜好为主。

2)正则获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值