目的:用python爬虫抓取顶点小说网站中的《庆余年》小说内容个,并保存为txt格式文件。
环境:Win10系统,Anaconda3 + PyCharm, python3.6版本
思路:(1)先在整个目录页,下载每一章节对应的URL和标题;(2)针对每一章的URL,下载对应的内容,将内容按照顺序存在TXT文件中。
步骤:
1.顶点小说中《庆余年》的主页网址:
https://www.booktxt.net/1_1902/
2. 在主页中,【楔子 一块黑布】处点击鼠标右键,选择【检查】,步骤如上图所示,结果如下图:
可以看到,所有的章节标题和对应的超链接,都在<a href="***".html>***</a>中, href是对应的部分url,文本是题目。
3.打开【楔子 一块黑布】章节,发现《庆余年》主页的网址 https://www.booktxt.net/1_1902/ + <a>中的 href部分的url组合起来就是本节的真正网址;
4.在本节内容任意一处单击鼠标右键,选择【检查】,步骤如上图所示, 结果如下图所示:
可以发现内容在<div id="content">***</div>中,注意其中有空行。
5.初步代码参考,先打印出每个章节对应的网址和题目:
import requests
from bs4 import BeautifulSoup
import os
import time
import random
import re
all_url = 'https://www.booktxt.net/1_1902/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
start_html = requests.get(url=all_url, headers=headers)
# print(start_html.status_code) #200
# print(type(start_html)) #<class 'requests.models.Response'>
# print(start