找一本自己想看的小说复制URL(网址)
我这里是以看书啦为例(其实是百度上面随便找的)看着容易爬一点,找到自己想看的小说(随便找一本操作一下吧)
我这边是随便找了一个小说
然后复制ta的网址,接下来就可以开始进行代码的操作了,
上代码
import requests
from bs4 import BeautifulSoup
import lxml
#定义一个列表,用于获取到章链接
list_value = []
class Novel:
# 类启动自动调用
def init(self, URL):
reAccess = requests.get(URL)
self.repAccess = reAccess.text
# 第二步提取数据
def reExtract(self):
B4 = BeautifulSoup(self.repAccess, "lxml") # lxml将网页解析
self.Results = (B4.select("body div dl dd a")) # 提取完毕以后返回的是一个列表
# 第三步清洗数据‘
def reCleaning(self):
# 循环列表
for i in self.Results:
conn = i.get("href")
# 拼接网页
a_conn = f"https://www.kanshula.com/{conn}"
# 将网页追加到列表中
list_value.append(a_conn)
NewNovel = Novel(“https://www.kanshula.com/book/hanmenzhuangyuan/”)
NewNovel.reExtract()
NewNovel.reCleaning()
获取小说的所有的章节链接,明天获取章节的内容