一个Python小爬虫

从放暑假到现t在,看了2/3的鸟哥私房菜,稍微了解了点Linux的基本知识,感觉还可以。

一直想学Python,可是因为考研什么的一直没开始,虽然自己断断续续看了基本的语法规则,但是没静下心来好好实践下。7月决定去惠普实训,才给了我这么个时间,不用备战考研,因为我放弃了这个独木桥,学了一周终于写出了自己的第一个爬虫。

参考了www.jeapedu.com的视频,然后关掉视频出去吃了午饭,打了把DOTA,磕磕碰碰写出自己的程序:

 
 
#-*- coding: utf-8 -*-
#Author:toddlerya
#History: 2014/8/10

import urllib,re

num = raw_input("你要下载哪一页的淘宝小妹?\n输入一个页码: ")
web = "http://mm.taobao.com/json/request_top_list.htm?type=0&page="
url = web + str(num)

def getModelHomePage(url):
    val = urllib.urlopen(url).read()
    #print val
    modre = r'href=".*?com/\d+\.htm'
    modelre = re.compile(modre)
    modurls = modelre.findall(val)
    head = 'href="'
    for modurl in modurls:
        html = modurl[len(head):]
    return html

def getImgUrl():
    html = getModelHomePage(url)
    home = urllib.urlopen(html).read()
    imgre = r'src="\w+?.*?\.jpg'
    imglist = re.findall(imgre,home)
    return imglist

def getImage():
    imglist = getImgUrl()
    temp = 'src="'
    n =0
    for img in imglist:
        image = img[len(temp):]
        #print image
        urllib.urlretrieve(image,"pic\\mm.jpg" +str(n)+".jpg")
        print "正在下载第%s张" % n 
        n += 1
        
getImage()
print "下载完毕!"




  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值