python爬虫之批量下载小说

前面练习了爬取单页的小说内容,之后又练习了提取整部小说的内容:可参考:一部小说爬取继上次之后想试试批量爬取小说,想就接着干,找到目标网页的地址:页面显示如下:然后打开开发者工具,发现内容也都在相应体中,那提取数据就十分简单了,页面的跳转的地址也很容易提取:一段简单的代码实现跳转页面地址的提取,提取出来的地址少了协议,列表推导式完成地址的拼接:跳转之后竟然没有直接到详情页,跳...
摘要由CSDN通过智能技术生成

前面练习了爬取单页的小说内容,之后又练习了提取整部小说的内容:
可参考:
一部小说爬取

继上次之后想试试批量爬取小说,想就接着干,找到目标网页的地址:
在这里插入图片描述
页面显示如下:
在这里插入图片描述
然后打开开发者工具,发现内容也都在相应体中,那提取数据就十分简单了,
页面的跳转的地址也很容易提取:
在这里插入图片描述
一段简单的代码实现跳转页面地址的提取,提取出来的地址少了协议,列表推导式完成地址的拼接:
在这里插入图片描述
跳转之后竟然没有直接到详情页,跳转到了点击阅读的页面:
在这里插入图片描述
没办法,只好再次提取中间跳转的地址:
在这里插入图片描述
同样也是很容易提取,地址也是不完整,列表推导式完成拼接:
在这里插入图片描述
请求之后终于到了列表详情页:
在这里插入图片描述
检查之后提取内容也是很简单,xpath直接提取,同时提取小说的名字,然后在请求小说内容页面的地址:
在这里插入图片描述
文本页面的内容同样使用xpath提取,并提取章节,但有两部小说的链接为空,所以就使用if判段直接跳过,否则接下来请求就会出错,同时在这一步直接实现保存,代码如下:
在这里插入图片描述
在这里插入图片描述
至此代码完成,完整代码如下:

'''
爬取17k小说网女生频道完本50-100万字的小说
'''
# 导入第三方库
import os
import requests
from lxml import etree
from fake_useragent import UserAgent

# 随机请求头
ua = UserAgent()


# 定义一个女生小说频道的类
class Nover_Women():
    # 初始化对象
    def __init__(self):
        self.start_url = "https://www.17k.com/all/book/3_5_0_3_3_0_1_0_1.html"
        self.headers = {
   'User-Agent': ua.random}

    # 提取start_url的html
    
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然可以!下面是一个使用Python编写的示例代码,用于批量下载网页上的图片: ```python import requests import os def download_images(url, save_folder): # 发送GET请求获取网页内容 response = requests.get(url) # 解析网页内容,获取图片链接 image_urls = parse_image_urls(response.text) # 创建保存图片的文件夹 if not os.path.exists(save_folder): os.makedirs(save_folder) for image_url in image_urls: # 发送GET请求下载图片 image_response = requests.get(image_url) # 提取图片文件名 image_name = image_url.split("/")[-1] # 拼接保存路径 save_path = os.path.join(save_folder, image_name) # 保存图片到本地 with open(save_path, "wb") as f: f.write(image_response.content) print(f"已下载图片:{save_path}") def parse_image_urls(html): # 解析网页内容,提取图片链接 # 这里需要根据具体的网页结构进行解析,可以使用正则表达式或者第三方库如BeautifulSoup等 # 这里仅作示例,不进行具体实现 image_urls = [] # ... return image_urls if __name__ == "__main__": url = "https://example.com" # 要爬取的网页URL save_folder = "images" # 图片保存的文件夹 download_images(url, save_folder) ``` 在上面的代码中,你需要将`url`变量替换为你要爬取的网页URL,`save_folder`变量替换为你想要保存图片的文件夹路径。你还需要根据具体的网页结构实现`parse_image_urls`函数,用于解析网页内容提取图片链接。 请注意,爬取网页上的图片需要遵守相关法律法规和网站的使用规定,确保获得合法授权或者遵循网站的使用条款。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值