python爬取起点小说

本文介绍了Python初学者在掌握基础知识和BeautifulSoup后,尝试进行网络爬虫实践,通过源码分享了如何爬取起点小说并保存到指定文件夹的过程。
摘要由CSDN通过智能技术生成

在看完python基础后,再看了半天的beautifulsoup源码解析后,想写一写网络爬取的小案例。

下面是源码


```python
import requests
from bs4 import BeautifulSoup
import os.path
import  time

if __name__ == '__main__':

    # 自定义一个变量存入最开始的网页
    main_url = 'https://book.qidian.com/info/1115277#Catalog'
    # 自定义一个列表,获取主网页的所有子网页地址
    list_child_url = []

    # 请求链接
    response = requests.get(main_url)
    # 获取主网页的源码
    html = response.text

    # 解析主网页的源码
    soup = BeautifulSoup(html,"lxml")
    # 打印查看
    # print(soup.prettify())

    # 获取小说的名称
    NovelNameList = soup.select('h1>em')  # 返回一个List集合

    # *从list集合从提取元素中的文本*#
    for n in NovelNameList:
        NovelName = n.get_text()
    # print(NovelName)

    # 创建一个存档小说的文件夹
    flag = os.path.exists("E:\\PythonWorkSpace\\GrabNovel\\"+str(NovelName))
    # 如果不存在,就创建该文件夹
    if not flag:
        os.mkdir("
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值