在看完python基础后,再看了半天的beautifulsoup源码解析后,想写一写网络爬取的小案例。
下面是源码
```python
import requests
from bs4 import BeautifulSoup
import os.path
import time
if __name__ == '__main__':
# 自定义一个变量存入最开始的网页
main_url = 'https://book.qidian.com/info/1115277#Catalog'
# 自定义一个列表,获取主网页的所有子网页地址
list_child_url = []
# 请求链接
response = requests.get(main_url)
# 获取主网页的源码
html = response.text
# 解析主网页的源码
soup = BeautifulSoup(html,"lxml")
# 打印查看
# print(soup.prettify())
# 获取小说的名称
NovelNameList = soup.select('h1>em') # 返回一个List集合
# *从list集合从提取元素中的文本*#
for n in NovelNameList:
NovelName = n.get_text()
# print(NovelName)
# 创建一个存档小说的文件夹
flag = os.path.exists("E:\\PythonWorkSpace\\GrabNovel\\"+str(NovelName))
# 如果不存在,就创建该文件夹
if not flag:
os.mkdir("