编写python脚本-->批量下载淘宝 2012年ADC技术嘉年华PDF文件

#!/usr/bin/env python
#coding=utf-8


import threading,urllib2,HTMLParser,time,urllib


        
def download(url,file_name):
    rfile = urllib.urlopen(url)
    url=rfile.geturl()
    urllib.urlretrieve(url,file_name+".pdf")
    
if __name__=="__main__":
    #lParser = parseDownloadFiles()
    content=urllib2.urlopen("http://www.taobaotest.com/notices/82").read()
    start='<h2>Tcon</h2>'
    end='<div class="article-nav">'
    content=content[content.find(start):content.find(end)]
    file_name_list=[]
    url_list=[]
    while 1:
        download_line=content[content.find("<p>"):content.find("</p>")+len("</p>")]
        if "down_link" in download_line:
            seprate=unicode("、", "utf-8")
            last=unicode(")", "utf-8")
            spec=unicode("/", "utf-8")
            if "<span" in download_line:
                file_name=download_line[download_line.find('cboxElement">')+len('cboxElement">'):download_line.find('</span>')]
                #if seprate in file_name:
                #file_name=file_name[file_name.find(u"、"):]
            else:
                file_name=download_line[download_line.find('<p>')+len('<p>'):download_line.find('(<a')]
                #file_name=(file_name[file_name.find(u"、"):]).strip()
            file_name=unicode(file_name, "utf-8")
            if seprate in file_name:
                file_name=file_name[file_name.find(seprate)+len(seprate):]
            if last in file_name:
                file_name=file_name[:file_name.find(last)]
            if spec in file_name:
                file_name=file_name.replace(spec,"")
            file_name_list.append(file_name)
            #file_name_list.append(unicode(file_name, "utf-8"))
            url=download_line[download_line.find('http://adc'):download_line.find('" target')]
            url_list.append(url)
        if content.find("</p>")==-1:
            break
        else:
            content=content[content.find("</p>")+len("</p>"):]    


    for i in range(0,len(file_name_list)):
        download(url_list[i],file_name_list[i])


转载于:https://my.oschina.net/u/2603916/blog/604123

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值