小白第一次爬取小说网站

找一本自己想看的小说复制URL(网址)
在这里插入图片描述
我这里是以看书啦为例(其实是百度上面随便找的)看着容易爬一点,找到自己想看的小说(随便找一本操作一下吧)
我这边是随便找了一个小说
在这里插入图片描述
然后复制ta的网址,接下来就可以开始进行代码的操作了,
上代码

import requests
from bs4 import BeautifulSoup
import lxml

#定义一个列表,用于获取到章链接
list_value = []

class Novel:
# 类启动自动调用
def init(self, URL):
reAccess = requests.get(URL)
self.repAccess = reAccess.text

# 第二步提取数据
def reExtract(self):
    B4 = BeautifulSoup(self.repAccess, "lxml")  # lxml将网页解析
    self.Results = (B4.select("body div dl dd a"))  # 提取完毕以后返回的是一个列表

# 第三步清洗数据‘
def reCleaning(self):
    # 循环列表
    for i in self.Results:
        conn = i.get("href")
        # 拼接网页
        a_conn = f"https://www.kanshula.com/{conn}"
        # 将网页追加到列表中
        list_value.append(a_conn)

NewNovel = Novel(“https://www.kanshula.com/book/hanmenzhuangyuan/”)
NewNovel.reExtract()
NewNovel.reCleaning()

获取小说的所有的章节链接,明天获取章节的内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值