刚学习Python,参考网上一篇爬取小说的教程,我自己以逐浪网站(http://book.zhulang.com)为例学习爬取小说编程。
思路:
(1) 首先学习BeautifulSoup,了解网页结构,了解SOUP之后的网页TAG架构,可以通过find_all()查找指定TAG
(2) 先爬取某一小说其中一个章节的正文
(3)其次将某一小说章节汇总的页面中每章的URL汇总为一个LIST
(4)重复2步骤,写入文件,形成小说全文
源代码如下:
# -*- coding: UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup
chapter_num=0 #初始化全局变量章节数量为0
chapter_url_list=[] #初始化全局变量每章地址列表为空
def write_chapter_content(zw1): #写每章正文
j=0
while zw1[j].cite==None: # p标签后的cite标签之后就是本章正文结束之处
f.write(zw1[j].get_text().strip()) #去空格
j=j+1
def write_chapter_name(zw2): #写每章标题
f.write(' ') # 每章标题前添加几个空格
f.write(zw2.title.get_text()[0:13]) # 0--13是每章标题
f.write('\n\n')