在看公众号新闻的时候,总会有一些有用的PPT图片啥的想保存下来。
那么用python如何抓取来,简单介绍一下。
比如这个网址,https://mp.weixin.qq.com/s/-rj91sCpeaURAU5hWe_sjQ
里面有20多张PPT的截图。
首先,打开网页的源代码。可以看到,data-src后面的URL就是我们需要的图片的地址。
那么,我们可以通过正则表达式,把所有的图片链接找出来,存在List里面,然后循环下载它们。
Python代码如下。
import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html.decode('UTF-8')
def getImg(html):
reg = r'data-ratio=&#