爬取多本小说

最新推荐文章于 2024-05-02 22:24:53 发布

nice博

最新推荐文章于 2024-05-02 22:24:53 发布

阅读量969

点赞数 2

分类专栏：爬虫进化之路文章标签： python

本文链接：https://blog.csdn.net/du346568978/article/details/105911033

版权

本文介绍了使用Python爬取笔趣阁小说网站的过程，包括请求网站获取小说名创建文件夹、请求小说获取章名和文章链接、以及请求文章内容并保存到对应文件。在解析和存储过程中，作者遇到了编码问题和文件路径过长问题，并给出了解决方案。

摘要由CSDN通过智能技术生成

目标网站

笔趣阁全部小说栏的小说
网址：http://www.xbiquge.la/xiaoshuodaquan/
页面解析

爬取流程：

1. 请求网站拿到数据，抽取小说名创建文件夹，抽取小说链接

解析网页发现，所有的书和其连接都是在相同在相同的标签下，极大的降低了我们爬取不同类别小说的难度，爬取书名以后需要将书名作为文件名，以便于之后本书章节的存储。
在这里插入图片描述实现代码如下：

    def start_requests(self):
        # 1. 请求网站拿到数据，抽取小说名创建文件夹，抽取小说链接
        start_url = "http://www.xbiquge.la/xiaoshuodaquan/"
        response = requests.get(start_url)
        html = etree.HTML(response.text)
        name_list = html.xpath("//div[@class='novellist']/ul/li/a/text()")
        url_list = html.xpath("//div[@class='novellist']/ul/li/a/@href")
        for shu_name,shu_url in zip(name_list,url_list):
            if os.path.exists(shu_name) == False:
                os.mkdir(shu_name)
            self.requests_zhang(shu_name,shu_url)

2. 请求小说拿到数据，抽取章名、文章链接

网页解析时发现，网址和书名都是正确的，但是在输出调试的时候发现，文章名变成了乱码，仔细想‘utf-8’是可以解析中文，不应该发生乱码的，想着应该是自己程序默认编码和文章的编码格式不同。做了个简单的调试，发现确实不一样，又进行了编码的转换。之后函数设计时，有一个**巧点：记录书的名称，以便之后文章存储时找到文件的位置。**实现代码如下：

    def requests_zhang(self,shu_name,shu_url):
        # 2. 请求小说拿到数据，抽取章名、文章链接
        response = requests.get(shu_url)
        #乱码 header显示编码格式是ISO-88

最低0.47元/天解锁文章

nice博

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
爬取多本小说

目标网站笔趣阁全部小说栏的小说网址：http://www.xbiquge.la/xiaoshuodaquan/页面解析爬取流程：1. 请求网站拿到数据，抽取小说名创建文件夹，抽取小说链接解析网页发现，所有的书和其连接都是在相同在相同的标签下，极大的降低了我们爬取不同类别小说的难度，爬取书名以后需要将书名作为文件名，以便于之后本书章节的存储。实现代码如下： def start_...
复制链接

扫一扫