爬取笔趣阁小说
类似笔趣阁这类无验证,不用登陆的网页爬取数据是相当简单的了,在获取到网页后抓取想要的数据就可以了。
初步想法
在爬取数据前首先要想好需要做些什么,有了大致的想法后才能有效的完成:
- 首先需要获取到想要爬取的网站,这里的网站为http://www.xbiquge.la;
- 在进入网站后选取自己想看的小说后获取小说所有的章节名称以及每章节的url在这里我想看的是斗罗大陆Ⅰ,url:http://www.xbiquge.la/1/1710/;
- 在获取到每一个章节的url后,我就需要对每一个url都去发起请求来获取每一章节下的文本内容。
三种获取章节名和url的方法
1)BeautifulSoup模块
由于不怎么会用bs4来获取,对于<dd><a>content</a></dd>这样的标签不会简便的获取方法所以写的比较复杂,还是以自己的喜好为主。
2)正则获取