具体代码详看代码块
现只说几点注意事项
一、首先寻找诗词名句网站
有两个:
- www.shicimingju.com/
- http://mathfunc.com/
第1个网址存在反爬机制,多次访问后将会禁止同一ip访问,第2个还行(建议使用第2个)
二、代码中写了两种遍历循环保存储正文方法,其中一种我注释了,各位可按需选择其中一种进行存储正文方法
(注意:选了其中一种之后要把另外一种方法注释掉)
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
# 需求:爬取诗词名句网的西游记小说,并按照每章节标题保存单独保存一个文件
if __name__ == '__main__':
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/86.0.4240.75 Safari/537.36'}
url