在python3中有一个 urllib模块,使用urllib 这个模块来进行简单的爬虫。
from urllib import request #引用这个模块
import re
def getObject(url):
urlObject = request.urlopen(url) #打开一个url,获得http请求的上下文,也就是 http reponse 对象
return getObject
def getjpglist(data): #使用正则表达式,匹配图片路径
list = re.findall(r'src = https.+?.jpg',data)
return list
httpObject = getObject("https://www.csdn.net/") #得到这个http reponse对象
#httpObject .geturl() 可以得到地址
#httpObject .info() 获得headers
#httpObject .getcode() 获得http的状态
data = httpObject .read().decado('utf-8') #得到内容,得到内容之后我们就可以用正则筛选自己想要的东西
jlist = getjpglist(data)
global n #声明一个全局变量
for jpg in jlist : #循环得到的图片地址的集合,打印出来
print(list)
n = n+1
# 如果想要下载图片可以使用 request.urlretrieve() 方法