本人从未学过Python 想开始学但是 但是不喜欢听理论课 就直接开始在时间中学习
进入正题
Python爬虫非常简单
第一步
首先获取打开页面 获取整个网页源码
def getHtml(url): page = urllib.request.urlopen(url) ##打开页面 html = page.read() ##获取目标页面的源码 return html
html就是真个网页源码
第二步
正则表达式匹配
正则表达式想学懂个人认为挺费时间的 网上又正则表达式匹配器 会用就OK
html = getHtml("http://www.quanjing.com/category/118291.html") reg = "http://.+?\\.jpg" img = re.compile(reg) html = html.decode('utf-8')
imglist = re.findall(img, html)
imglist是匹配图片url的数组
最后下载 Python2用
urllib.urlretrieve(imglist[0], 'D:/1.jpg')
Python3 用
urllib.request.urlretrieve(imglist[0], 'D:/1.jpg')
最后附上源码
#coding =utf-8 import urllib.request import re def getHtml(url): page = urllib.request.urlopen(url) ##打开页面 html = page.read() ##获取目标页面的源码 return html if __name__=="__main__": html = getHtml("http://www.quanjing.com/category/118291.html") reg = "http://.+?\\.jpg" img = re.compile(reg) html = html.decode('utf-8') imglist = re.findall(img, html) print(imglist[0]) urllib.request.urlretrieve(imglist[0], 'D:/1.jpg')
然后到你的D盘去找图片吧 名字1.jpg