爬取腾讯首页所有的图片并保存到本地

最新推荐文章于 2024-01-26 16:37:15 发布

小小小小人水豚

最新推荐文章于 2024-01-26 16:37:15 发布

阅读量526

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/kongsuhongbaby/article/details/89600513

版权

python 专栏收录该内容

75 篇文章 31 订阅

订阅专栏

爬虫的知识点有点忘记了，做个小练习复习一个。

题目

'''
抓取腾讯主页中的图片到本地
1. 抓取网页
2. 抓取图片地址
3. 抓取图片内容并保存到本地
'''

代码

import re
import requests
import os
from urllib.request import urlretrieve

#访问腾讯首页
response = requests.get('http://www.qq.com/')
#获取完整的html
content = response.text

#正则找到所有src属性对应的链接
links = re.findall(r'src="(.*?)"',content)
##print(links)
#找到所有有效的链接
valid_links = []
for link in links:
      if link.endswith('.js') or link.endswith('.css'):
            continue
      #url中没有http时手动补充
      if not link.startswith('http'):
            valid_links.append("http:"+link)


#新建image文件夹
if not os.path.exists("image"):
      os.mkdir('image')
#将图片内容保存到image文件夹
i = 0
for link in valid_links:
      print(link)
      urlretrieve(link,'image\\%s.jpg'%i)
      i += 1