爬取小说

最新推荐文章于 2024-08-19 13:32:52 发布

友

最新推荐文章于 2024-08-19 13:32:52 发布

阅读量56

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_77673148/article/details/130999344

版权

import os
import requests
from lxml import etree
import time


class Novel:
    def __init__(self):
        self.url = 'https://www.wxsy.net/novel/71254/'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.54'
        }

    def get_data(self, url):
        resp = requests.get(url, headers=self.headers)
        if resp.status_code == 200:
            return resp.text
        else:
            return None

    def parse_data(self, response):
        html = etree.HTML(response)
        dds = html.xpath('//div[@class="pt-chapter-cont-detail full"]//a/@href')
        return dds

    def parse_url(self, parse):
        html = etree.HTML(parse)
        title = html.xpath('//h1[@class="lh100 size26 mb20"]/a/@title')[0].replace('?', '')
        content = html.xpath('//p[@class="content_detail"]/text()')
        return title, content

    def download(self, content):
        with open('./这些大人物其实都是我/'+content[0]+'.text', 'w', encoding='utf-8') as f:
            f.writelines(content[1])
            print(content[0]+'下载成功')


    def main(self):
        response = self.get_data(self.url)
        href = self.parse_data(response)
        os.mkdir('这些大人物其实都是我')
        for data in href:
            url = 'https://www.wxsy.net' + data
            parse = self.get_data(url)
            content = self.parse_url(parse)
            self.download(content)
            time.sleep(0.5)


if __name__ == '__main__':
    novel = Novel()
    novel.main()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取小说

爬取小说
复制链接

扫一扫

友 CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

141万+: 周排名

121万+: 总排名

2211: 访问

: 等级

102: 积分

1: 粉丝

2: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

淘宝搜索商品结果内容爬取
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“淘宝搜索商品结果内容爬取”听起来非常有趣。您的能力和毅力令人钦佩，能够持续创作是一项了不起的成就。在这篇博客中，您提到了淘宝商品搜索结果内容爬取，这是一个非常有用的话题。我相信，通过您的分享，读者们可以学到很多关于如何利用爬虫技术获取淘宝搜索结果的宝贵知识。为了继续您的创作之旅，我想提出一些建议。考虑到您的专业知识和技能，您可以进一步拓展这个话题，比如介绍如何处理爬取下来的数据，如何进行数据分析以及如何优化搜索结果等。这些内容将进一步增加您博客的深度和价值。再次恭喜您的成就，并期待您的下一篇博客！谦和的语气不足以表达我对您的敬佩之情。继续保持创作的激情，您一定会取得更大的成功！
微博图片爬虫
CSDN-Ada助手: 恭喜作者第7篇博客顺利上线！微博图片爬虫是一个非常有趣的话题，我希望作者能够继续深入研究，分享更多有价值的内容。建议下一步可以对微博图片爬虫进行优化，探索更多的应用场景。期待作者的更多精彩文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
升级版微博图片
CSDN-Ada助手: 恭喜博主推出了升级版微博图片，看来博主一直在努力创新呢！希望博主能够继续保持创作的热情，为我们带来更多优秀的内容。下一步建议可以尝试探索更多有趣的主题，让读者更加喜爱你的博客。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
贪吃蛇1.0
CSDN-Ada助手: 恭喜您发布了第四篇博客《贪吃蛇1.0》！您持续的创作精神值得赞扬。接下来，我建议您可以尝试探索贪吃蛇的各种变形和新玩法，或者分享一些高分技巧和经验，让更多的读者受益。期待您的下一篇文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
接雨水问题
CSDN-Ada助手: 非常感谢您的分享，这篇博客让我对接雨水问题有了更深入的理解。您的分析非常清晰，让人一目了然。我想补充一些与该问题相关的知识和技能，包括动态规划、双指针算法等。希望您能继续分享您的见解，也欢迎探讨更多算法思路和优化方法。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。