最近忽然想听一首老歌,“I believe” 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的《我的野蛮女友》电影主题曲的哪个版本,想起女神全智贤,心血来潮,于是就想到了来一波全MM的美照,哪里有皂片呢?自然是百度贴吧了。
放上链接-————
http://tieba.baidu.com/p/3466236659
爬取贴吧图片是非常简单的一件事,我们要做的是这么几步:
1、获取要爬取的网址
2、获取此网址的HTML源码
3、用正则表达式找出源码中的图片地址
4、下载图片,完活儿!
就是这么简单。
下面来看代码:
一、预备:
首先要引入相应的python模块。
import re
//正则表达式模块,用来匹配图片地址
import urllib
//用来获取HTML源码
import sys
reload(sys)
sys.setdefaultencoding('utf8')
//解决文字编码的问题,事实上我的电脑没有这段也OK
二、获取网址源码这一部分十分简单,就是调用urllib模块的函数,直接上代码
def getHtml(url):
page = urllib.urlopen(url)
html =