【Python】第一个爬虫

 1 import urllib.request
 2 import re
 3 
 4 class DownPic:
 5 
 6     def __init__(self,url,re_str):
 7         self.url = url
 8         self.re_str = re_str
 9 
10     def getHtml(self,url):
11         page = urllib.request.urlopen(url)
12         html = page.read()
13         return str(html)
14 
15     def downloadPic(self):
16         imgre = re.compile(self.re_str) #构造正则
17         html = self.getHtml(self.url) #读取界面
18         imglist = re.findall(imgre,html)
19         x = 0
20         for imgurl in imglist:
21             print(imgurl)
22             try:
23                 urllib.request.urlretrieve(imgurl,"../data/%s.jpg" % x) # 将图片取到本地
24             except:
25                 print("error")
26             x += 1

上面是一个类,传入两个参数,一个是网页,一个是要匹配的图片的地址

下面是调用:

1 from downpic import DownPic
2 
3 downPic = DownPic("http://tieba.baidu.com/p/2460150866",r'src="(https://imgsa.baidu.com.+?\.jpg)" pic_ext')
4 
5 downPic.downloadPic()
6 print("over")

从上面可以看到,一个简单爬虫的基本步骤是:
1、读取界面的HTML

2、用正则去获取到目标链接

3、下载

转载于:https://www.cnblogs.com/yanyojun/p/9310555.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值