[python 爬虫]Python爬虫抓取马蜂窝游记的照片基于xpath

最新推荐文章于 2023-09-15 10:48:11 发布

VIP文章 Thorrrrrrrrrr

最新推荐文章于 2023-09-15 10:48:11 发布

阅读量4.3k

点赞数

分类专栏： Python爬虫 Python

本文链接：https://blog.csdn.net/sinat_33487968/article/details/62437265

版权

之前都只是使用urllib和urllib2这两个类库，接下来要发掘更多好用的工具了，比如这个xpath，对于分析HTML的网页结构实在是太方便。

http://blog.csdn.net/freeking101/article/details/52614291

http://www.w3school.com.cn/xpath/index.asp

大家可以参考一下这个网址学习一下xpath的使用方法，好了下面就说回我的代码实现

首先观察一下马蜂窝的游记HTMLsource

图片1

然后就可以写出获得图片地址和保存图片的函数

def writePhoto(soup,path):
    print u"开始保存图片"
    img=soup.xpath('//img/@data-src')
    total_img=0
    for myimg in img:
        total_img += 1
        print myimg
        urllib.urlretrieve(myimg,path+'%s.jpg'%total_img)
        print u"已经保存第",total_img,u"张照片"
    print u"总共保存第",total_img,u"张照片&#

最低0.47元/天解锁文章

优惠劵

Thorrrrrrrrrr

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
5
评论
[python 爬虫]Python爬虫抓取马蜂窝游记的照片基于xpath

之前都只是使用urllib和urllib2这两个类库，接下来要发掘更多好用的工具了，比如这个xpath，对于分析HTML的网页结构实在是太方便。http://blog.csdn.net/freeking101/article/details/52614291http://www.w3school.com.cn/xpath/index.asp大家可以参考一下这个网址学习一下xpath的使...
复制链接

扫一扫