通过爬虫对bi趣阁相关尝试

那谁948

于 2024-03-16 20:49:48 发布

阅读量242

点赞数 3

文章标签：爬虫 python 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_67577190/article/details/136769448

版权

本文介绍了如何使用Python的requests和Parsel库爬取BQG70网站的小说章节，通过用户输入小说ID，获取并保存章节内容到指定文件夹。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先我们对怎么爬取进行相关介绍，在python运行后，我们只需要输入我们要爬取的小说的id号，我们就可以对我们的小说进行相关内容的爬取。代码中需要修改的参数为

folder_name = 'xiaoshuo2333' # 设置小说存储的文件夹名字

接下来我们对运行的结果进行观察：

我们输入需要爬取的id值1，然后代码运行结束后我们的xiaoshuo2333文件目录里面就会生成我们每一章节的txt文件。小说的内容就存放在这个文件夹里面了。

接下来我们进行代码层面的展示

import requests  # 第三方的模块
import parsel  # 第三方的模块
import os  # 内置模块 文件或文件夹

folder_name = 'xiaoshuo2333'  # 设置文件夹名字
if not os.path.exists(folder_name):
    os.mkdir(folder_name)

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}

rid = input('输入书名ID：')
link = f'https://www.bqg70.com/book/{rid}/'

html_data = requests.get(url=link, headers=headers).text
selector_2 = parsel.Selector(html_data)
divs = selector_2.css('.listmain dd')
for div in divs:
    title = div.css('a::text').get()
    href = div.css('a::attr(href)').get()
    url = 'https://www.bqg70.com' + href

    try:
        response = requests.get(url=url, headers=headers)
        selector = parsel.Selector(response.text)
        book = selector.css('#chaptercontent::text').getall()
        book = '\n'.join(book)
        # 设置文件路径
        file_path = os.path.join(folder_name, title + '.txt')
        # 数据保存到指定路径下
        with open(file_path, mode='a', encoding='utf-8') as f:
            f.write(book)
            print('正在下载章节:', title)
    except Exception as e:
        print(e)

上述代码仅供学习，如有侵权可联系删除

博客等级

码龄3年

8
原创

38
点赞

27
收藏

36
粉丝

关注

私信

热门文章

分类专栏

深度学习自学 2篇

展开全部收起

上一篇：: 通过爬虫对漫客zhan网站爬取

下一篇：: 深度学习之目标检测自学开题篇（数据集的不同形式）

最新评论

通过爬虫对bi趣阁相关尝试
CSDN-Ada助手: 恭喜您完成了第6篇博客！通过爬虫对bi趣阁相关尝试，展现了您对技术和创作的热情与执着。接下来，建议您可以尝试深入分析爬虫的运作原理，结合更多数据进行分析，或者探索更多有趣的网站进行爬取，以丰富您的创作内容。期待您的下一篇作品！愿您在创作道路上不断进步，谦虚自律，持之以恒。
用bs方法对图库数据进行爬取操作
CSDN-Ada助手: 非常棒的博客！你的描述非常清晰，让我对使用bs方法进行图库数据爬取有了更深的理解。希望你能继续创作，分享更多关于爬虫的经验和技巧。除了bs方法，你可以进一步了解一些相关的知识和技能，如： 1. 爬虫的反爬机制：了解网站可能采取的反爬虫策略，以及如何应对这些策略，比如设置请求头、使用代理IP等。 2. 数据清洗和处理：在爬取的数据中，可能存在一些噪音或者不规范的数据，你可以学习如何使用正则表达式或其他处理方法进行数据清洗和整理。 3. 自动化爬虫：你可以学习如何使用selenium等工具实现自动化爬虫，以便在网页中进行一些交互操作，如点击、填写表单等。希望这些扩展知识对你有所帮助，期待看到你的更多优质内容！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
django restframework个人学习
CSDN-Ada助手: 恭喜你开始了博客创作！学习django restframework确实是一个很好的选择，希望你能够坚持下去，不断分享自己的学习心得和经验。下一步建议可以尝试结合实际项目进行练习，这样能更好地巩固所学知识并丰富你的博客内容。希望你能够保持谦虚的态度，不断进步，期待你更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

那谁948 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。