#6、图片爬虫

import urllib.request
import re

keyname="女装"
key=urllib.request.quote(keyname)  #编码中文
headers=("user-agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3641.400 QQBrowser/10.4.3284.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(1,101):
    url="https://detail.tmall.com/item.htm?id=574351834951&ali_refid=a3_430673_1006:1103046707:N:"+key+":17d4916369a83d6804131e9a131c4952&ali_trackid=1_17d4916369a83d6804131e9a131c4952&spm=a2e15.8261149.07626516002.1"
    data=urllib.request.urlopen(url).read().decode("utf-8", "ignore")
    pat='pic_ url":"//(.*?)"'  #正则
    imagelist=re.compile(pat).findall(data)
    for j in range(0,len(imagelist)):
        thisimg=imagelist[j]
        Ethisimgurl="http://"+thisimg
        file="C:/Users/sxxzc/Desktoptest"+str(i)+str(j)+".jpg"  #.jpg把文件保存为jpg格式
        urllib.request.urlretrieve(thisimgurl,filename=file)  


一直以来都在用业余时间自学Python,但很少去系统的总结自己学到的东西,今天把自己草稿式的笔记整理出来,供大家参考,文中存在的问题望大佬斧正。

用Python做数据分析,个人认为首先必须掌握一些基本语法,其次要会写爬虫。
现在很少有人用urllib去爬东西,但学习它有利于了解爬虫是如何运行的,所以我决定从这里开始。

直接上代码,结合代码和注释来学习或许更高效。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值