前几天在csdn首页看到一个大佬爬取看准网数据并分析的博客,自己搞了一下,各种问题,已超过目前的认知领域,so,先从基本的做起吧,一点点添加新内容。
本次任务为爬取马蜂窝旅行达人的游记照片,之前搞过几次马蜂窝,中间停顿过长,再次回归吧。
上代码:
import re
import urllib.request
import os
from lxml import etree
def savePhoto(soup,path):
print(u"开始保存图片")
img=soup.xpath('//img/@data-src')
total_img=0
for myimg in img:
total_img += 1
print(myimg)
urllib.request.urlretrieve(myimg,path+'%s.jpg'%total_img)
print(u"已经保存第",total_img,u"张照片")
print(u"总共保存第",total_img,u"张照片")
def getTitle(soup):
result=soup.xpath('//div/h1/text()')[0]
result=re.sub(