网易云课堂python里面的爬虫

最新推荐文章于 2024-08-28 10:44:00 发布

cjyang1123

最新推荐文章于 2024-08-28 10:44:00 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签：正则表达式爬虫 python

本文链接：https://blog.csdn.net/cjyang1123/article/details/10830367

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import re
import urllib


def getHtml(url):
    page=urllib.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'src="(.*?\.jpg)" pic'   #正则表达式
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,"%s.jpg" % x)
        x+=1
    return imglist
html =  getHtml("http://tieba.baidu.com/p/2460150866")
print html
print getImg(html)