爬取小说【含完整代码】

最新推荐文章于 2025-04-03 10:51:52 发布

「已注销」

最新推荐文章于 2025-04-03 10:51:52 发布

阅读量2.5w

点赞数 24

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/aliYz/article/details/126561900

版权

嗨嗨，我是小圆。

相信大家都会看小说，但是有些小说看几章就要付费，奈何自己又没有会员，只能用用python爬取一下了。

请添加图片描述

基本开发环境

Python 3.6
Pycharm

单章爬取

请添加图片描述
一、明确需求
爬取小说内容保存到本地

小说名字
小说章节名字
小说内容

# 第一章小说url地址
url = 'http://www.平台原因自己打.com/52_52642/25585323.html'

url = 'http://www.平台原因自己打.com/52_52642/25585323.html'
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

请添加图片描述
请求网页返回的数据中出现了乱码，这就需要我们转码了。

加一行代码自动转码。

response.encoding = response.apparent_encoding

请添加图片描述

解析数据

请添加图片描述
根据css选择器可以直接提取小说标题以及小说内容。

def get_one_novel(html_url):
    # 调用请求网页数据函数
    response = get_response(html_url)
    # 转行成selector解析对象
    selector = parsel.Selector(response.text)
    # 获取小说标题
    title = selector.css('.bookname h1::text').get()
    # 获取小说内容 返回的是list
    content_list