python爬虫办公实例100例_python小实例一:简单爬虫

本文提供了一个Python简单爬虫实例,通过urllib.request和re模块,实现从指定网页抓取并保存前六张图片的功能。代码中包含错误处理,确保能成功下载图片。
摘要由CSDN通过智能技术生成

这篇文章主要为大家详细介绍了python小实例一:简单爬虫,具有一定的参考价值,可以用来参考一下。

感兴趣python小实例一:简单爬虫的小伙伴,下面一起跟随512笔记的小编罗X来看看吧。

#coding =utf-8

import urllib.request

import re

def getHtml(url):

page = urllib.request.urlopen(url) ##打开页面

html = page.read() ##获取目标页面的源码

return html

def getImg(html):

reg = 'src="(.+?\.png)"' ##正则表达式筛选目标图片格式,有些是'data-original="(.+?\.jpg)"'

img = re.compile(reg)

html = html.decode('utf-8') ##编码方式为utf-8

imglist = re.findall(img, html) ##解析页面源码获取图片列表

#print(imglist)

x = 0

#length = len(imglist)

for i in range(6): ##取前6张图片保存

imgurl = imglist[i]

#imgurl = re.sub('"(.*?)"',r'\1',imgurl) #取单引号里的双引号内容

#print(imgurl)

urllib.request.urlretrieve(imgurl,'%s.jpg' % x) ##将图片从远程下载到本地并保存

x += 1

global Max_Num

Max_Num = 1

##有时候无法打开目标网页,需要尝试多次,这里设置为1次

for i in range(Max_Num):

try:

html = getHtml("view-source:http://www.shangxueba.com/jingyan/2438398.html")

getImg(html)

break

except:

if i < Max_Num - 1:

continue

else:

print ('URLError: All times is failed ')

注:关于python小实例一:简单爬虫的内容就先介绍到这里,更多相关文章的可以留意512笔记的其他信息。

关键词:

您可能感兴趣的文章

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值