Python——爬取单章小说内容

最新推荐文章于 2024-04-21 13:49:53 发布

tingyu_

最新推荐文章于 2024-04-21 13:49:53 发布

阅读量1.5k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/tingyu_/article/details/104211998

版权

Python 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

小说的单章爬取：

编译环境：pycharm

需要安装第三方库：requests lxml bs4 beautifulsoup4

安装上面的第三方库的时候首先需要在cmd中下载下来，使用命令：pip install 库名（下载国外的资源）或者使用国内的镜像源，这里推荐一个：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名，在cmd中下载完毕后，可以在相应的项目中安装了（需要保证网速，否则深容易超时装不上（好想加一个欲哭无泪的表情））

代码解析：

首先需要导包，

获取你想爬取的小说的那一章的网址，

url="网址"

使用requests.get请求网站，

req=reques.get(url=url)

在想要爬取的那章小说的当前页，点击鼠标右键，点击审查元素，查看Elements中head中的charset后面的信息，以便进行解码

req.encoding=" "

接下来可以打印一下响应码(状态码)也可以不打印

print("响应码",req.status_code)

接下来就是获取当前页面中审查元素后可以看到的h5的代码了，在这里最好打印一下这个代码，如果能打印下来就说明到这一步是正确的，如果不能打印，就需要对代码进行检查了。

print(req.text)

获取到这些内容后，就该对这些内容进行解码了，也就是解析网站，然后找到所要下载的小说的内容的div块（find_all），可以生成一个列表，这个列表中只有一个下标为0的元素，然候使用text获取其中的内容就可以了。

代码示例如下：

import requests
import lxml
from bs4 import BeautifulSoup
#小说网址
url="https://read.qidian.com/chapter/JIINcKGBCKQj8FaDXua-rg2/Kfym0HeVTA7gn4SMoDUcDQ2"
req=requests.get(url=url)
req.encoding="utf-8"
print("响应码",req.status_code)
#获取文本内容
html=req.text
bf=BeautifulSoup(html,"lxml")
# print(bf)
div=bf.find_all("div",class_="read-content j_readContent")
# print(div)
print(div[0].text)

如果想要生成的小说内容存放到一个文档中，则需要导入os包

代码如下：
import os

txt=div[0].text

with open ("小说名字.txt","w",encoding="utf-8")as file:
file.write(txt)

file.close()

tingyu_

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
Python——爬取单章小说内容

小说的单章爬取：编译环境：pycharm需要安装第三方库：requests lxml bs4 beautifulsoup4安装上面的第三方库的时候首先需要在cmd中下载下来，使用命令：pip install 库名（下载国外的资源）或者使用国内的镜像源，这里推荐一个：pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/si...
复制链接

扫一扫