需要准备的环境
1.python 3.0及以上皆可
2.requests库,os,re
选取网页
找一个免费的小说网站,我在这里拿http://www.zanghaihua.org/wanlishiwunian/ 来举例子
思路
1.首先来看看网页的结构
右键网页,点击“查看网页源代码”
不难发现看到章节链接的格式都是</span><span> <a href="章节网址">章节名称</a>
随便点开一个章节,进入小说内容页面,然后再去看看源代码
还是不难发现文本的结构是<div class="bookcontent clearfix" id="BookText">内容<br/><br/><div
我们可以把爬取每个章节链接存到一个列表里面,再让python再次访问这个链接去爬取内容,最后写入文档,接下来直接上代码,注释我都写好了。
”我看你就是讲不懂才直接上代码的“
闭嘴[滑稽]
代码
#导入库
import requests
import os
import re
#定义请求协议头
headers = {
'accept': '*/*',
'accept-encoding': 'gzip, deflate, br'