前言
通过对python的学习进一步的提升,针对小说广告太多的问题,对番茄小说的某部小说进行了爬虫爬取。
提示:以下是本篇文章正文内容,下面案例可供参考
一、思路
找到想看的小说的网站地址→爬取小说所有章节的网站地址→爬取每章小说的标题和内容→把内容保存到TXT文件
二、具体步骤
1.找到需要爬取的网站和小说
我爬取的是番茄小说网的《我不是戏神》这部小说
2.导入需要使用到的模块
代码如下(示例):
#导入数据模块
import requests
#导入正则模块
import re
#导入数据解析模块
import parsel
3.获取小说名字及章节ID
# 请求链接
url = 'https://fanqienovel.com/page/7276384138653862966'
#模拟浏览器
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}
#发送请求
response =requests.get(url