[python爬虫]如何爬取特定网页的图片

最新推荐文章于 2023-10-27 09:30:00 发布

NewstarSouth

最新推荐文章于 2023-10-27 09:30:00 发布

阅读量1.3k

点赞数 1

分类专栏： Python基础文章标签：爬虫

本文链接：https://blog.csdn.net/NewstarSouth/article/details/47219789

版权

Python基础专栏收录该内容

12 篇文章 0 订阅

订阅专栏

#!/usr/bin/env python
# -*- coding:utf-8 -*-

"""
Created on Sun Aug 02 20:10:36 2015

@author: lijiong
"""

import urllib
import sys
import chardet
import re


def get_html(url):
    page = urllib.urlopen(url)
    content = page.read()
    typeEncode = sys.getfilesystemencoding()
    infoencode = chardet.detect(content).get('encoding','utf-8')
    html = content.decode(infoencode,'ignore').encode(typeEncode)
    return html      #提取html页面，编码已经转换

def get_img(html):
    reg = r'src="(http://imgsrc.baidu.com/forum/w.*?\.jpg)"' 
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html) #表达式中只有一个括号时，findall只会返回括号的内容
    i = 0
    for imgurl in imglist:
        print imgurl
        urllib.urlretrieve(imgurl, 'C:/Users/lijiong/Desktop/new/%s.jpg'%i)
        i+=1
        
html = get_html('http://tieba.baidu.com/p/3837885162')
get_img(html)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NewstarSouth

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[python爬虫]如何爬取特定网页的图片

#!/usr/bin/env python# -*- coding:utf-8 -*-"""Created on Sun Aug 02 20:10:36 2015@author: lijiong"""import urllibimport sysimport chardetimport redef get_html(url): page = urllib.ur
复制链接

扫一扫