Python爬虫抓取纯静态网站及其资源_python下载所有js css img

Java老杨

于 2024-04-27 16:37:49 发布

阅读量344

点赞数 5

文章标签： python 爬虫 css

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60721823/article/details/138252595

版权

这个办法是我当时能想到的最好办法了。不过这种人为的办法有以下缺点：

手工操作，麻烦费时

一不小心就忘记保存哪个文件

难以处理路径之间的关系，比如一张图片a.jpg, 它在html中的引用方式是images/banner/a.jpg，这样我们以后还要手动去解决路径依赖关系

然后刚好前段时间接触了一点python，想到可以写个python爬虫来帮我自动抓取静态网站。于是就马上动手，参考相关资料等等。

下面跟大家详细分享一下写爬虫抓取静态网站的全过程。

前置知识储备

在下面的代码实践中，用到了python知识、正则表达式等等，核心技术是正则表达式。

我们来一一了解一下。

Python基础知识

如果你之前有过其他语言的学习经历，相信你可以很快上手python这门语言。具体学习可以上查看python官方文档或者其他教程。

爬虫的概念

爬虫，按照我的理解，其实是一段自动执行的计算机程序，在web领域中，它存在的前提是模拟用户在浏览器中的行为。

它的原理就是模拟用户访问web网页，获取网页内容，然后分析网页内容，找出我们感兴趣的部分，并且最后处理数据。

流程图是：

现在流行的爬虫主流实现形式有以下几种：

自己抓取网页内容，然后自己实现分析过程

用别人写好的爬虫框架，比如Scrapy

正则表达式

概念

正则表达式是由一系列元字符和普通字符组成的字符串，它的作用是根据一定的规则来匹配文本，最终可以对文本做出一系列的处理。

元字符是正则表达式中的保留字符，它有特殊的匹配规则，比如*代表匹配0到无穷多次，普通字符就是普通的abcd等等。

比如在前端中，常见的一个操作就是判断用户的输入是否为空，这时候我们可以先通过正则表达式来进行匹配，先过滤掉用户输入的两边空白值，具体实现如下：

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫抓取纯静态网站及其资源_python下载所有js css img

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。一群人才能走的更远！元字符是正则表达式中的保留字符，它有特殊的匹配规则，比如*代表匹配0到无穷多次，普通字符就是普通的abcd等等。爬虫，按照我的理解，其实是一段自动执行的计算机程序，在web领域中，它存在的前提是模拟用户在浏览器中的行为。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。