简单爬虫

最新推荐文章于 2021-12-21 15:15:49 发布

嗯哼丶苏苏

最新推荐文章于 2021-12-21 15:15:49 发布

阅读量135

点赞数 1

分类专栏： Python复习

本文链接：https://blog.csdn.net/qq_41824185/article/details/79661134

版权

Python复习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

所有的简单爬虫都是四步走——获取一个链接，打开这个链接，获取html代码，然后分析代码即可。

这是一个最简单的爬虫程序，只是爬一些百度图片。

示例代码：

from urllib.request import *

#用来处理网络访问
import re

url='https://image.baidu.com/search/indextn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E9%A3%8E%E6%9A%B4'
html = urlopen(url)# 用来打开一个网页

obj = html.read().decode()
#获取html代码并解码

urls = re.findall(r'"objURL":"(.*?)"',obj) #贪婪非贪婪
#urls为列表形式

index = 0

for url in urls:
try:
print('downloading...%d'%index)
urlretrieve(url,'pic' + str(index) + '.jpg') #相对路径保存
index += 1

except Exception:
print('download error...%d'%index)

else:

print('download complete...')

这里需要注意的是贪婪与非贪婪，这里就是非贪婪，贪婪就是（.*?），即可以一次到位的东西就一次到位，简单来说就是结果将作为一个整体返回回来。另外，不同的图片有不同的格式，这里其实可以通过正则给不同格式的图片赋予不同的后缀名。

嗯哼丶苏苏

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫

所有的简单爬虫都是四步走——获取一个链接，打开这个链接，获取html代码，然后分析代码即可。这是一个最简单的爬虫程序，只是爬一些百度图片。示例代码：from urllib.request import *#用来处理网络访问import reurl='https://image.baidu.com/search/indextn=baiduimage&amp;ipn=r&amp;ct=20132659...
复制链接

扫一扫

专栏目录