python爬虫--利用xpath爬取图片(虚拟机ubuntu16.04)

此篇爬虫的背景是:虚拟机刚装好的ubuntu 16.04,系统环境还需配置,爬虫的程序是之前几个月前在windows上写的,今天放到虚拟机上跑一跑!(安装了VMware Tools就可以把宿主机上的文件拉进虚拟机中!)

xpath爬取用到了urllib2与lxml库,ubuntu16.04自带python2.7.11,包含了urllib2库,但lxml还需安装!

上程序:

 

# -*- coding:utf-8 -*-
import urllib2
from lxml import etree

def loadPage(url):
    headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:54.0) Gecko/20100101 Firefox/54.0","Referer":"http://www.mmonly.cc/mmtp/xgmn/175265_4.html"}
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    html = response.read()
    #print html

    content = etree.HTML(html)
    link_list = content.xpath('//div[@class="thumb"]/img/@src')
    for link in link_list:
        writeImage(link)

def writeImage(link):
    request = urllib2.Request(link)
    image = urllib2.urlopen(request).read()
    filename = link[-10:]
    with open(filename,'wb') as f:
        f.write(image)
    print "download successful" + filename


if __name__ == "__main__":
    url = "http://www.xiaoliaobaike.cn/qutu"
    p = input("please input a tegert: ")
    fullurl = url + "?p=" + str(p)
    loadPage(fullurl)
~                      

运行结果为:

查看文件:

打开对应的文件夹即可查看图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值