python-简单爬虫

最新推荐文章于 2024-04-01 13:30:49 发布

x_Orange

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量415

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u012372089/article/details/19100295

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

代码

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImage(html):
    r1=r'img class="BDE_Image" src="(.*?\.jpg)"' #？最小匹配
    r1=re.compile(r1)
    imglist=re.findall(r1,html)
    print imglist
    x=0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

html=getHtml('http://tieba.baidu.com/p/2826139361') #放入网页url
getImage(html)

正则 .*? 用法

最小匹配若.*\. 则匹配tool.chinaz.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

x_Orange

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-简单爬虫

import reimport urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImage(html): r1=r'img class="BDE_Image" src="(.*?\.jpg)"' #？最小
复制链接

扫一扫