#6、图片爬虫

最新推荐文章于 2024-05-04 16:08:54 发布

TrueEik

最新推荐文章于 2024-05-04 16:08:54 发布

阅读量801

点赞数

分类专栏： Python学习

本文链接：https://blog.csdn.net/TrueEik/article/details/93381537

版权

Python学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

import urllib.request
import re

keyname="女装"
key=urllib.request.quote(keyname)  #编码中文
headers=("user-agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3641.400 QQBrowser/10.4.3284.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(1,101):
    url="https://detail.tmall.com/item.htm?id=574351834951&ali_refid=a3_430673_1006:1103046707:N:"+key+":17d4916369a83d6804131e9a131c4952&ali_trackid=1_17d4916369a83d6804131e9a131c4952&spm=a2e15.8261149.07626516002.1"
    data=urllib.request.urlopen(url).read().decode("utf-8", "ignore")
    pat='pic_ url":"//(.*?)"'  #正则
    imagelist=re.compile(pat).findall(data)
    for j in range(0,len(imagelist)):
        thisimg=imagelist[j]
        Ethisimgurl="http://"+thisimg
        file="C:/Users/sxxzc/Desktoptest"+str(i)+str(j)+".jpg"  #.jpg把文件保存为jpg格式
        urllib.request.urlretrieve(thisimgurl,filename=file)  


一直以来都在用业余时间自学Python，但很少去系统的总结自己学到的东西，今天把自己草稿式的笔记整理出来，供大家参考，文中存在的问题望大佬斧正。

用Python做数据分析，个人认为首先必须掌握一些基本语法，其次要会写爬虫。
现在很少有人用urllib去爬东西，但学习它有利于了解爬虫是如何运行的，所以我决定从这里开始。

直接上代码，结合代码和注释来学习或许更高效。

TrueEik

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#6、图片爬虫

import urllib.requestimport rekeyname="女装"key=urllib.request.quote(keyname) #编码中文headers=("user-agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 S...
复制链接

扫一扫

专栏目录