python爬虫办公实例100例_python小实例一：简单爬虫

最新推荐文章于 2024-08-04 18:30:00 发布

weixin_39644377

最新推荐文章于 2024-08-04 18:30:00 发布

阅读量3.1k

点赞数 1

文章标签： python爬虫办公实例100例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39644377/article/details/111780084

版权

本文提供了一个Python简单爬虫实例，通过urllib.request和re模块，实现从指定网页抓取并保存前六张图片的功能。代码中包含错误处理，确保能成功下载图片。

摘要由CSDN通过智能技术生成

这篇文章主要为大家详细介绍了python小实例一：简单爬虫，具有一定的参考价值，可以用来参考一下。

感兴趣python小实例一：简单爬虫的小伙伴，下面一起跟随512笔记的小编罗X来看看吧。

#coding =utf-8

import urllib.request

import re

def getHtml(url):

page = urllib.request.urlopen(url) ##打开页面

html = page.read() ##获取目标页面的源码

return html

def getImg(html):

reg = 'src="(.+?\.png)"' ##正则表达式筛选目标图片格式，有些是'data-original="(.+?\.jpg)"'

img = re.compile(reg)

html = html.decode('utf-8') ##编码方式为utf-8

imglist = re.findall(img, html) ##解析页面源码获取图片列表

#print(imglist)

x = 0

#length = len(imglist)

for i in range(6): ##取前6张图片保存

imgurl = imglist[i]

#imgurl = re.sub('"(.*?)"',r'\1',imgurl) #取单引号里的双引号内容

#print(imgurl)

urllib.request.urlretrieve(imgurl,'%s.jpg' % x) ##将图片从远程下载到本地并保存

x += 1

global Max_Num

Max_Num = 1

##有时候无法打开目标网页，需要尝试多次，这里设置为1次

for i in range(Max_Num):

try:

html = getHtml("view-source:http://www.shangxueba.com/jingyan/2438398.html")

getImg(html)

break

except:

if i < Max_Num - 1:

continue

else:

print ('URLError: All times is failed ')

注：关于python小实例一：简单爬虫的内容就先介绍到这里，更多相关文章的可以留意512笔记的其他信息。

关键词：

您可能感兴趣的文章

weixin_39644377

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。