(二）Python爬虫笔记--爬取网站小说

最新推荐文章于 2024-05-12 17:09:19 发布

qq_42044484

最新推荐文章于 2024-05-12 17:09:19 发布

阅读量338

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_42044484/article/details/80316126

版权

刚学习Python,参考网上一篇爬取小说的教程，我自己以逐浪网站（http://book.zhulang.com）为例学习爬取小说编程。

思路：

（1）首先学习BeautifulSoup，了解网页结构，了解SOUP之后的网页TAG架构，可以通过find_all()查找指定TAG

（2）先爬取某一小说其中一个章节的正文

（3）其次将某一小说章节汇总的页面中每章的URL汇总为一个LIST

（4）重复2步骤，写入文件，形成小说全文

源代码如下：

# -*- coding: UTF-8 -*-
from urllib import request
from bs4    import BeautifulSoup

chapter_num=0                   #初始化全局变量章节数量为0
chapter_url_list=[]             #初始化全局变量每章地址列表为空
def write_chapter_content(zw1): #写每章正文
    j=0
    while zw1[j].cite==None:     # p标签后的cite标签之后就是本章正文结束之处
        f.write(zw1[j].get_text().strip()) #去空格
        j=j+1

def write_chapter_name(zw2):   #写每章标题
    f.write('            ')    # 每章标题前添加几个空格
    f.write(zw2.title.get_text()[0:13]) # 0--13是每章标题
    f.write('\n\n')