【Python】学习笔记 #1 —— 爬取网页筛选数据全过程

这篇博客介绍了如何使用Python进行网页爬取,从安装requests包、导入相关库,到使用requests.get获取网页信息,利用正则表达式re筛选数据,以及使用os模块处理文件和目录。通过一个综合案例展示了爬取和保存图片的过程。
摘要由CSDN通过智能技术生成

 

目录 

Step 1:下载requests包

Step 2:导包

Step 3:requests使用

Step 4:Re的使用

Step 5:os的使用

Step 6:保存文件

Step 7:综合案例


Step 1:下载requests包

常见的方式是在windows系统上win+R调出运行,输入cmd进入控制台。

输入指令pip list可以看见目前已经安装的包

下载requests包指令为:pip install requests

由于下载包默认引用的地址是国外的网站,因此可能出现界面卡住,进度条过慢的情况,

一般我们手动通过引用国内镜像源,例如:

1、清华  https://mirrors.tuna.tsinghua.edu.cn/

2、中科大USTC镜像源  https://mirrors.ustc.edu.cn/   

3、163  http://mirrors.163.com/

4、阿里  https://opsx.alibaba.com/mirror

引用清华镜像源后的下载指令为:pip install requests -i https://mirrors.tuna.tsinghua.edu.cn/

Tips:不排除有新手程序员安装了多个版本的python,导致pycharm里查看下载的包的时候与控制台不一致的问题。

          解决方式是,在需要的工程中,点开下方的Terminal,在出现的控制台中输入指令下载也是可以的。

          另:注意联网


Step 2:导包

本次我的学习案例中,共需导入3个包:

import requests # 实用的Python HTTP客户端库
import os # 包含负责新建文件、改文件名、路径、操作电脑系统相关的功能集合的包
import re # 包含使用正则表达式的包

 Step 3:requests使用

requests的请求方式有两种:get与post

面对不同的网站,使用get还是post需要灵活变对。

以站长素材(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值