【Python】学习笔记 #1 —— 爬取网页筛选数据全过程

最新推荐文章于 2024-08-03 17:47:57 发布

MoShyoKi

最新推荐文章于 2024-08-03 17:47:57 发布

阅读量2.9k

点赞数 4

分类专栏： Python爬虫文章标签： python 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MoShyoKi/article/details/116694282

版权

这篇博客介绍了如何使用Python进行网页爬取，从安装requests包、导入相关库，到使用requests.get获取网页信息，利用正则表达式re筛选数据，以及使用os模块处理文件和目录。通过一个综合案例展示了爬取和保存图片的过程。

摘要由CSDN通过智能技术生成

目录

Step 1：下载requests包

Step 2：导包

Step 3：requests使用

Step 4：Re的使用

Step 5：os的使用

Step 6：保存文件

Step 7：综合案例

Step 1：下载requests包

常见的方式是在windows系统上win+R调出运行，输入cmd进入控制台。

输入指令pip list可以看见目前已经安装的包

下载requests包指令为：pip install requests

由于下载包默认引用的地址是国外的网站，因此可能出现界面卡住，进度条过慢的情况，

一般我们手动通过引用国内镜像源，例如：

1、清华 https://mirrors.tuna.tsinghua.edu.cn/

2、中科大USTC镜像源 https://mirrors.ustc.edu.cn/

3、163 http://mirrors.163.com/

4、阿里 https://opsx.alibaba.com/mirror

引用清华镜像源后的下载指令为：pip install requests -i https://mirrors.tuna.tsinghua.edu.cn/

Tips：不排除有新手程序员安装了多个版本的python，导致pycharm里查看下载的包的时候与控制台不一致的问题。

解决方式是，在需要的工程中，点开下方的Terminal，在出现的控制台中输入指令下载也是可以的。

另：注意联网

Step 2：导包

本次我的学习案例中，共需导入3个包：

import requests # 实用的Python HTTP客户端库
import os # 包含负责新建文件、改文件名、路径、操作电脑系统相关的功能集合的包
import re # 包含使用正则表达式的包

Step 3：requests使用

requests的请求方式有两种：get与post

面对不同的网站，使用get还是post需要灵活变对。

以站长素材（

最低0.47元/天解锁文章

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MoShyoKi CSDN认证博客专家 CSDN认证企业博客

码龄5年

39: 原创

40万+: 周排名

156万+: 总排名

2万+: 访问

: 等级

424: 积分

21: 粉丝

15: 获赞

7: 评论

69: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Python】学习笔记 #3 —— 使用XPath爬取数据
wellpain: 爬完呀
【Flask项目】日志的基本使用 # 4
weixin_51768462: 谢谢博主！！！
【Flask】学习笔记 #10 —— JinJa2后端传值
行走的14229-1: 简单粗暴，666
【Python】Celery基本使用
北风之神c: 写得赞，博主用心了，但主要还是celery太难用了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 pip install funboost
【Python】学习笔记 #4 —— 挖掘“看不见”的数据
酒吧炒饭: 牛逼，大佬教教

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。