python3爬虫例子

import urllib.request
import re


def saveFile(path, data):
    f_obj = open(path, 'wb')
    f_obj.write(data)
    f_obj.close()


def getData(weburl):
    webheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = urllib.request.Request(url=weburl, headers=webheaders)
    response = urllib.request.urlopen(req)
    return response.read()


source = ['taobao', r'https://www.taobao.com/']


page = getData(source[1])
# saveFile('e:\\temp.out', page)


match = re.findall(r'((http:|https:)?//[^\s\"\&]*?(jpg|png|gif|webp))', str(page))
matchIndex = [0, 2]


for index, link in enumerate(match):
    print(link)
    destLink = link[matchIndex[0]]
    if destLink.startswith('//'):
        destLink = "http:" + destLink;
    print(str(index) + " " + destLink)
    try:
        path = r"E:/worm_pic/" + source[0] + "/" + str(index) + '.' + link[matchIndex[1]]
        print(path)
        urllib.request.urlretrieve(destLink, path)
    except Exception as e:
        print('失败' + e.message)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值