Python爬虫实例：爬取微信公众号图片（表情包）

最新推荐文章于 2024-07-25 17:11:44 发布

尼克张

最新推荐文章于 2024-07-25 17:11:44 发布

阅读量5.6k

点赞数 11

分类专栏： Python爬虫文章标签： Python 爬虫 BeautifulSoup

本文链接：https://blog.csdn.net/weixin_42225163/article/details/89233927

版权

背景：

在学习了简单爬虫的编写之后，我试图通过编写爬取公众号图片（表情包）来丰富我的聊天技能，亦不致于败给各种熊猫头。
在学习了requests库之后，就能够很轻松地爬取静态页面的信息，把网页对象获取到本地。但是此时如何把复杂的网页信息解析出来，便需要使用到正则表达式或者这次分享的BeautifulSoup库。BeautifulSoup是非常好用的第三方解析器，具体介绍和使用参考官方说明文档
调用方法：

from bs4 import BeautifulSoup

算法思路

用到的主要第三方库有Re库、Requests库和BeautifulSoup库。
此后我编写了getHTMLText()函数获得指定url的html信息，编写了getimgURL()函数得到某一篇文章里的所有图片链接，再编写download(adlist)函数新建或打开文件夹下载并保存图片，最后在主函数给出想要爬取的公众号文章地址，依次调用函数运行即可。
1.获取网页信息
使用requests库的get函数定义获取网页信息的函数：

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return &#

最低0.47元/天解锁文章

尼克张

关注

11
点赞
踩
27

收藏

觉得还不错? 一键收藏
4
评论
Python爬虫实例：爬取微信公众号图片（表情包）

在学习了requests库之后，就能够很轻松地爬取静态页面的信息，把网页对象获取到本地。但是此时如何把复杂的网页信息解析出来，便需要使用到正则表达式或者这次分享的BeautifulSoup库。BeautifulSoup是非常好用的第三方解析器，具体介绍和使用参考官方说明文档以下是我使用Re库、Requests库和BeautifulSoup库编写的爬取公众号图片（表情包）程序，分享源码：impo...
复制链接

扫一扫

专栏目录