python 爬取小说

python如何爬取小说

大家好,本人第一次写博客,如果有什么写的不足的或者不好的请斧正

感谢jack-cui的博主,我也是在博主的博客文章学习的,文章内容非常详细,有借鉴的成分想看原文点击
好了话不多说直接来看如何去写
爬取网站https://www.xsbiquge.com/20_20331/
要引入的包有 requests,bs4,os
#上面要的包都可以 win+r  里面这个来下载 
pip install requests #包的名字

弄不懂的也可以去百度里面问大神
在这里插入图片描述

先来分析内容

可以按F12,Chrome开发者工具可以看到html页面,所以我们先爬取其中的内容

# -*- coding:UTF-8 -*-
import requests
url='https://www.xsbiquge.com/20_20331/'
req=requests.get(url=url)
print(req.text)

在这里插入图片描述

然后我们会发现文字不是我们想要的网页
没有问题,我们继续来解决

在这里插入图片描述

现在看起来就正常了

至于为什么加req.encoding=req.apparent_encoding 应为它可以自动翻译成 ‘utf-8’

来我们继续爬取我们想要的内容

在这里插入图片描述

可以看到还不是我们想要的文本格式,继续

在这里插入图片描述

然后我们来解析整个的url来爬取整本小说

上代码

在这里插入图片描述

最后我们整合代码

我爬取的格式和jack-cui的格式不一样 ,想在创建一个文件夹下在创建txt文件,每一章节对应每一个txt文件

上代码看看

if not os.path.exists(b):
os.makedirs(b)
这个是判断是不是有这个文件夹,没有就创建,有不管
感谢自己
在这里插入图片描述

效果还是令人满意

在这里插入图片描述

自己最后也没明白为什么下载不完?希望大家想想办法

环境永远不会十全十美,消极的人受环境控制,积极的人却控制环境
愿我的青春不在迷茫,在逆境中砥砺前行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值