[Python爬虫]爬取贴吧图片
代码有瑕疵就是必须在目的目录中创建文件夹,确认了文件夹创建之后再运行。
Python爬虫的使用其实就是熟悉运用urllib,urllib2,re模块。
首先是模拟浏览器的环境 ,通过url定位获取网页的源码,分析html源码找到自己要提取的信息的规律,最后通过re正则表达式匹配\查找获取相应的信息。
爬虫的简单程序:获取贴吧的图片并下载到本地保存
import urllib2
import urllib
import re
import os
class TiebaImg(object):
def __init__(self):
self.number = 0
# os.mkdir(self.Path)
self.Path = 'f:\Img\kenan_test1'
self.siteUrl = 'http://tieba.baidu.com/p/4570934032?pn='
self.Re = r'<img class=".*?" src="(.*?)".*?>'
def getPattern(self,page):
url = self.siteUrl + str(page)
RE = self.Re
pattern = re.compile(RE)
response = urllib2.urlopen(url).read()
items = re.findall(pattern,response)
return items
def getImg(self,num):
Item = self.getPattern(num)
for item in Item:
splitPath = item.split('.')
fTail = splitPath.pop()
if len(fTail) > 3:
fTail = "jpg"
filename = self.Path + "\\" + "Image" + str(self.number) + "." + fTail
u = urllib2.urlopen(item)
data = u.read()
File = open(filename,'wb')
File.write(data)
self.number += 1
File.close()
tieba = TiebaImg()
tieba.getImg(1)