爬取淘宝女郎的照片-写给初步入门爬虫的读者

爬取淘宝女郎照片-写给初步入门爬虫的读者

    要爬取的照片示例:



python2.7爬虫代码如下:

#coding=utf-8
import urllib2

mmurl = "https://mm.taobao.com/json/request_top_list.htm?type=0&page="    # Taobao MM
i = 0  # 一共4316张

while i < 1:
    url = mmurl + str(i)
    print url
    up = urllib2.urlopen(url)
    cont = up.read()

    print "***************************************"
    head = "href=\"//"
    tail = "\" target="

    newPh = cont.find(head)
    while newPh != -1:
        pj = cont.find(tail, newPh + 1)
        modelUrl = "https://" + cont[newPh + len(head) : pj]   # Must Add "https"

        if modelUrl[-3:] == "htm":    # 每个网站i有10个淘女郎
            print modelUrl
            # 从每个首页进入每个淘宝女郎的个人主页, 问题是现在要登录, 所以目前后面的程序暂时运行不了
            mup = urllib2.urlopen(modelUrl)
            mcont = mup.read()

            print mcont
            mhead = "src=\"//"
            mtail = ".jpg\">"

            mph = mcont.find(mhead)
            print mph

            while mph != -1:
                mpj = mcont.find(mtail, mph + 1)
                mmUrl = "https://" + mcont[mph + len(mhead): mpj + 4]    # 读取到每张图片的url

                print mmUrl
                mph = mcont.find(mhead, mph + 1)

        newPh = cont.find(head, newPh + 1)
    print "***************************************"
    i += 1

print "Finished!"

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值