Python爬虫爬下IT之家图片

最新推荐文章于 2023-12-27 13:46:24 发布

烟消云撒

最新推荐文章于 2023-12-27 13:46:24 发布

阅读量908

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/lcj1105/article/details/51283592

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

#coding:utf-8
import urllib
import re

url = "http://www.ithome.com/html/it/221721.htm"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通过正则匹配图片特征,并获取图片链接
img_tag = re.compile(r'data-original="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)
print img_links

# 下载图片 img_counter为图片计数器(文件名)
img_counter = 0
for img_link in img_links:
    img_name = '%s.jpg' % img_counter
    urllib.urlretrieve(img_link, "D://dataset//%s" %img_name)
    img_counter += 1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

烟消云撒

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫爬下IT之家图片

#coding:utf-8import urllibimport reurl = "http://www.ithome.com/html/it/221721.htm"html = urllib.urlopen(url)content = html.read()html.close()# 通过正则匹配图片特征,并获取图片链接img_tag = re.compile(r'data-
复制链接

扫一扫