Python爬虫-ppt全站爬取

量化张某六亿路

已于 2023-09-28 16:24:37 修改

阅读量352

点赞数

分类专栏： python 文章标签： python 爬虫开发语言

于 2023-09-26 21:19:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaronzhangsz/article/details/133324169

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python爬虫-ppt全站爬取

import re
import requests
wz = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}

page = 1
# 1.请求ppt模板的总页面 https://www.ypppt.com/moban/  找到很多个下载页面的网址
while True:
    if page == 1:
        url1 = 'https://www.ypppt.com/moban/'
    else:
        url1 = f'https://www.ypppt.com/moban/list-{page}.html'
    res = requests.get(url1, headers=wz)
    res.encoding = 'utf-8'  # python最常用最常用的编码 万国码！

    aids = re.findall('<a href="/article/.*?/(.*?).html" class="p-title"', res.text)
    if not aids:
        break
    titles = re.findall('class="p-title" target="_blank">(.*?)</a>', res.text)

    for i in range(len(aids)):
        url2 = 'https://www.ypppt.com/p/d.php?aid=' + aids[i]   # 每一个编号aids[i]
        res = requests.get(url2, headers=wz)                    # 请求这个链接 找到下载地址
        download_url = re.findall('<li><a href="(.*?)">下载地址1</a></li>', res.text)
        res = requests.get(download_url[-1], headers=wz)        # 请求下载的链接 保存在文件中
        open(f'PPT模板/{titles[i]}.zip', 'wb').write(res.content)       # 每一个标题titles[i]
        print(f'已经下载{titles[i]}.zip~~~')
    page += 1















# url2 = 'https://www.ypppt.com/p/d.php?aid=' + aid


# 2.请求下载页面的网址 https://www.ypppt.com/p/d.php?aid=6157 找到下载地址
# 3.https://down.ypppt.com/uploads/soft/200617/1-20061H34358.zip 下载文件

量化张某六亿路

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python爬虫-ppt全站爬取

Python爬虫应用
复制链接

扫一扫

专栏目录

量化张某六亿路 CSDN认证博客专家 CSDN认证企业博客

码龄17年

9: 原创

76万+: 周排名

49万+: 总排名

2598: 访问

: 等级

92: 积分

8: 粉丝

2: 获赞

5: 评论

7: 收藏

私信

关注

热门文章

分类专栏

最新评论

用odoo.sh管理、部署和测试
CSDN-Ada助手: 恭喜您开始博客创作！标题中的"用odoo.sh管理、部署和测试"让人非常期待您的分享。对于初次写博客的人来说，您已经选取了一个非常有技术深度和实用性的主题。在接下来的创作中，建议您可以从自己的实践经验出发，结合具体案例或者操作步骤，为读者提供更多实用的内容。通过谦虚的语气，您可以表达出对读者的尊重和愿意倾听他们的需求。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
一个收益高胜率的JoinQuant聚宽量化策略
CSDN-Ada助手: 评论：非常高兴看到您分享关于JoinQuant聚宽量化策略的博客！您的文章标题和摘要都非常吸引人，引发了我的浓厚兴趣。我鼓励您继续创作这样有价值的文章，因为它们对于那些想要进入量化交易领域的人来说是非常有帮助的。除了题为“量化交易策略”的主题外，我想分享一些和该博文相关但未在标题和摘要中出现的扩展知识和技能。首先，您可以考虑介绍一些与市场行为有关的心理学概念，如投资者情绪和行为金融学。这些概念对于理解市场走势和制定更有效的量化策略非常重要。此外，您还可以探讨一些与数据分析相关的技能，如Python编程和数据可视化。这些技能可以帮助读者更好地处理和分析大量的市场数据，并从中发现有价值的信号。在文章中加入这些扩展知识和技能将使您的博客更加全面，并为读者提供更多的学习资源。再次感谢您分享这篇博文，期待看到更多关于量化策略的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Python爬虫-ppt全站爬取
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“Python爬虫-ppt全站爬取”听起来非常有趣。您对Python爬虫的应用非常了解，这是一个非常有用的技能。不仅能够帮助您获取所需的信息，还能节省大量的时间和精力。在下一步的创作中，我建议您考虑分享一些关于爬虫实现的技巧和经验。例如，您可以介绍一些用于处理反爬虫机制的方法，或者分享一些优化爬取速度和效率的技巧。这些内容将进一步丰富您的博客，并帮助读者更好地理解和应用爬虫技术。继续保持努力和创作，相信您的博客会越来越受欢迎！谦虚地说，我期待着您未来的创作。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
用RFM模型细分电商客户价值
CSDN-Ada助手: 恭喜您发布了新的博客！RFM模型的细分客户价值确实是电商运营中非常重要的一环，能够帮助电商更好地了解客户并进行精准营销。希望您能够继续分享更多关于RFM模型的应用案例和实践经验，或者可以结合其他模型一起探讨客户价值细分的更多方法。期待您的下一篇创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CMS网站开发Odoo有一个功能齐全的内容管理系统
CSDN-Ada助手: 恭喜您写了第5篇博客！标题为“CMS网站开发Odoo有一个功能齐全的内容管理系统”真是吸引人的主题啊。我非常欣赏您对Odoo这个内容管理系统的深入研究和分享。您的博客内容非常有见地，让读者对Odoo的功能和优势有了更清晰的认识。在下一步的创作中，我谦虚地提出一些建议。首先，您可以考虑分享一些使用Odoo进行CMS网站开发的实际案例，这将使读者更加深入地了解其在实践中的应用。另外，您还可以探讨Odoo与其他CMS系统的比较，帮助读者更好地选择适合自己的工具。最后，我期待您能够分享一些Odoo的最佳实践和技巧，帮助读者更好地利用该系统进行开发和管理。再次祝贺您的连续创作，并期待您在接下来的博客中继续展现出您的深度洞察和优秀的写作技巧！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

量化张某六亿路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。