python爬取起点小说

最新推荐文章于 2023-09-21 20:51:25 发布

小鹿叶之斯基

最新推荐文章于 2023-09-21 20:51:25 发布

阅读量1.1k

点赞数

分类专栏：无文章标签： python爬取小说

本文链接：https://blog.csdn.net/qq_43680900/article/details/101682233

版权

本文介绍了Python初学者在掌握基础知识和BeautifulSoup后，尝试进行网络爬虫实践，通过源码分享了如何爬取起点小说并保存到指定文件夹的过程。

摘要由CSDN通过智能技术生成

在看完python基础后，再看了半天的beautifulsoup源码解析后，想写一写网络爬取的小案例。

下面是源码


```python
import requests
from bs4 import BeautifulSoup
import os.path
import  time

if __name__ == '__main__':

    # 自定义一个变量存入最开始的网页
    main_url = 'https://book.qidian.com/info/1115277#Catalog'
    # 自定义一个列表，获取主网页的所有子网页地址
    list_child_url = []

    # 请求链接
    response = requests.get(main_url)
    # 获取主网页的源码
    html = response.text

    # 解析主网页的源码
    soup = BeautifulSoup(html,"lxml")
    # 打印查看
    # print(soup.prettify())

    # 获取小说的名称
    NovelNameList = soup.select('h1>em')  # 返回一个List集合

    # *从list集合从提取元素中的文本*#
    for n in NovelNameList:
        NovelName = n.get_text()
    # print(NovelName)

    # 创建一个存档小说的文件夹
    flag = os.path.exists("E:\\PythonWorkSpace\\GrabNovel\\"+str(NovelName))
    # 如果不存在，就创建该文件夹
    if not flag:
        os.mkdir("