python爬虫源码大全_python爬虫（附源码）

最新推荐文章于 2023-10-30 16:10:28 发布

weixin_39679468

最新推荐文章于 2023-10-30 16:10:28 发布

阅读量7k

点赞数 2

文章标签： python爬虫源码大全

本文介绍了如何使用Python的requests和BeautifulSoup库来爬取网页上的表情图片，通过正则表达式筛选出jpg和gif格式的图片URL，并将其下载到本地。涉及的Python包包括requests、bs4、re、urllib、lxml和os。

摘要由CSDN通过智能技术生成

声明：本文内容皆来自网上

环境：ubuntu19.04、python3.x

python包：requests、bs4、beautifulsoup、re、urllib、lxml、os

下载方式：$pip install [包名]

ps：部分电脑未安装python-pip，报错后按照系统提示下载python-pip

爬虫过程：

1)模拟浏览器向目标网页发送请求

2)接收响应

3)解析，将响应转为网页代码输出

4)查找代码中需要的部分

5)处理

代码实现：

这里以爬取发表情(https://www.fabiaoqing.com/biaoqing)网页上的图片为例

1、2) url = 'https://www.fabiaoqing.com/biaoqing' #目标网址

response = requests.get(url) #发送访问请求接收

3) soup= BeautifulSoup(response.content.decode('utf-8'), 'lxml') #解析响应，此时soup是目标网页代码

4) gowl = str(soup.findAll('img')) #查找所有图片，gowl即为图片url

#由于我们仅需要其中的表情，所以需要对gowl再进行一次筛选。目标网页表情包url

我们可以发现url分为.jpg和.gif，但它们前面都是

最低0.47元/天解锁文章

weixin_39679468

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python爬虫源码大全_python爬虫（附源码）

声明：本文内容皆来自网上环境：ubuntu19.04、python3.xpython包：requests、bs4、beautifulsoup、re、urllib、lxml、os下载方式：$pip install [包名]ps：部分电脑未安装python-pip，报错后按照系统提示下载python-pip爬虫过程：1)模拟浏览器向目标网页发送请求2)接收响应3)解析，将响应转为网页代码输出4)查找代...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。