小白第一次爬取小说网站

最新推荐文章于 2024-05-02 21:47:38 发布

A_SmallTao

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量591

点赞数

文章标签： python

本文链接：https://blog.csdn.net/A_SmallTao/article/details/112890411

版权

找一本自己想看的小说复制URL(网址)
在这里插入图片描述
我这里是以看书啦为例（其实是百度上面随便找的）看着容易爬一点，找到自己想看的小说（随便找一本操作一下吧）
我这边是随便找了一个小说

然后复制ta的网址，接下来就可以开始进行代码的操作了，
上代码

import requests
from bs4 import BeautifulSoup
import lxml

#定义一个列表，用于获取到章链接
list_value = []

class Novel:
# 类启动自动调用
def init(self, URL):
reAccess = requests.get(URL)
self.repAccess = reAccess.text

# 第二步提取数据
def reExtract(self):
    B4 = BeautifulSoup(self.repAccess, "lxml")  # lxml将网页解析
    self.Results = (B4.select("body div dl dd a"))  # 提取完毕以后返回的是一个列表

# 第三步清洗数据‘
def reCleaning(self):
    # 循环列表
    for i in self.Results:
        conn = i.get("href")
        # 拼接网页
        a_conn = f"https://www.kanshula.com/{conn}"
        # 将网页追加到列表中
        list_value.append(a_conn)

NewNovel = Novel(“https://www.kanshula.com/book/hanmenzhuangyuan/”)
NewNovel.reExtract()
NewNovel.reCleaning()

获取小说的所有的章节链接，明天获取章节的内容