一个Python小爬虫

最新推荐文章于 2024-08-24 11:00:49 发布

toddlerya

最新推荐文章于 2024-08-24 11:00:49 发布

阅读量547

点赞数 1

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/toddlerya/article/details/38470545

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

从放暑假到现t在，看了2/3的鸟哥私房菜，稍微了解了点Linux的基本知识，感觉还可以。

一直想学Python，可是因为考研什么的一直没开始，虽然自己断断续续看了基本的语法规则，但是没静下心来好好实践下。7月决定去惠普实训，才给了我这么个时间，不用备战考研，因为我放弃了这个独木桥，学了一周终于写出了自己的第一个爬虫。

参考了www.jeapedu.com的视频，然后关掉视频出去吃了午饭，打了把DOTA，磕磕碰碰写出自己的程序：

 
 
  
  #-*- coding: utf-8 -*-
#Author:toddlerya
#History: 2014/8/10

import urllib,re

num = raw_input("你要下载哪一页的淘宝小妹?\n输入一个页码: ")
web = "http://mm.taobao.com/json/request_top_list.htm?type=0&page="
url = web + str(num)

def getModelHomePage(url):
    val = urllib.urlopen(url).read()
    #print val
    modre = r'href=".*?com/\d+\.htm'
    modelre = re.compile(modre)
    modurls = modelre.findall(val)
    head = 'href="'
    for modurl in modurls:
        html = modurl[len(head):]
    return html

def getImgUrl():
    html = getModelHomePage(url)
    home = urllib.urlopen(html).read()
    imgre = r'src="\w+?.*?\.jpg'
    imglist = re.findall(imgre,home)
    return imglist

def getImage():
    imglist = getImgUrl()
    temp = 'src="'
    n =0
    for img in imglist:
        image = img[len(temp):]
        #print image
        urllib.urlretrieve(image,"pic\\mm.jpg" +str(n)+".jpg")
        print "正在下载第%s张" % n 
        n += 1
        
getImage()
print "下载完毕！"