Python爬虫入门——爬取贴吧图片

最近忽然想听一首老歌,“I believe” 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的《我的野蛮女友》电影主题曲的哪个版本,想起女神全智贤,心血来潮,于是就想到了来一波全MM的美照,哪里有皂片呢?自然是百度贴吧了。

放上链接-————

http://tieba.baidu.com/p/3466236659

爬取贴吧图片是非常简单的一件事,我们要做的是这么几步:

1、获取要爬取的网址

2、获取此网址的HTML源码

3、用正则表达式找出源码中的图片地址

4、下载图片,完活儿!

就是这么简单。

下面来看代码:

一、预备:

首先要引入相应的python模块。

import re
//正则表达式模块,用来匹配图片地址
import urllib
//用来获取HTML源码
import sys  
reload(sys) 
sys.setdefaultencoding('utf8')
//解决文字编码的问题,事实上我的电脑没有这段也OK


二、获取网址源码这一部分十分简单,就是调用urllib模块的函数,直接上代码

def getHtml(url):
    page = urllib.urlopen(url)
    html =
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值