import urllib.request
import re
keyname="女装"
key=urllib.request.quote(keyname) #编码中文
headers=("user-agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3641.400 QQBrowser/10.4.3284.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(1,101):
url="https://detail.tmall.com/item.htm?id=574351834951&ali_refid=a3_430673_1006:1103046707:N:"+key+":17d4916369a83d6804131e9a131c4952&ali_trackid=1_17d4916369a83d6804131e9a131c4952&spm=a2e15.8261149.07626516002.1"
data=urllib.request.urlopen(url).read().decode("utf-8", "ignore")
pat='pic_ url":"//(.*?)"' #正则
imagelist=re.compile(pat).findall(data)
for j in range(0,len(imagelist)):
thisimg=imagelist[j]
Ethisimgurl="http://"+thisimg
file="C:/Users/sxxzc/Desktoptest"+str(i)+str(j)+".jpg" #.jpg把文件保存为jpg格式
urllib.request.urlretrieve(thisimgurl,filename=file)
一直以来都在用业余时间自学Python,但很少去系统的总结自己学到的东西,今天把自己草稿式的笔记整理出来,供大家参考,文中存在的问题望大佬斧正。
用Python做数据分析,个人认为首先必须掌握一些基本语法,其次要会写爬虫。
现在很少有人用urllib去爬东西,但学习它有利于了解爬虫是如何运行的,所以我决定从这里开始。
直接上代码,结合代码和注释来学习或许更高效。
#6、图片爬虫
最新推荐文章于 2024-05-04 16:08:54 发布