python爬虫抓取淘宝图片

最新推荐文章于 2024-07-25 19:59:32 发布

JaceinSalt

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量2.1k

点赞数 2

分类专栏： python 数据文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/malvas/article/details/87973009

版权

python 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

训练模型需要data，于是从网上抓取相关图片集，之后进行筛选标注。

import urllib.request
import re

keyword = '骚猪'#定义搜索关键字
keyword = urllib.request.quote(keyword)#对关键字编码

headers = ('User-Agent',"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)

for i in range(0, 20):#设定爬取页数0到20页
    #淘宝搜索页面规律
    url = 'https://s.taobao.com/search?q='+keyword+'&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s='+str(i*44)
    data = urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
    pat = 'pic_url":"//(.*?)"'
    imagelist = re.compile(pat).findall(data)
    for j in range(0, len(imagelist)):
        thisimage = imagelist[j]
        thisurl = 'http://'+thisimage
        file = 'E:/datatb/tshirt/tshirt'+str(i)+str(j)+'.jpg'#保存图片位置
        urllib.request.urlretrieve(thisurl,file)

建议一次获取页面不要太多，不然会请求失败。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JaceinSalt CSDN认证博客专家 CSDN认证企业博客

码龄9年

36: 原创

5万+: 周排名

153万+: 总排名

12万+: 访问

: 等级

1838: 积分

86: 粉丝

118: 获赞

310: 评论

511: 收藏

私信

关注

分类专栏

最新评论

（超详细很完整）tensorflow上实现deeplabv3+
Air: 博主你好，我在生成tfrecord出现了错误，请问这个怎么解决 [main 2023-09-13T07:07:57.793Z] update#setState disabled [main 2023-09-13T07:07:57.794Z] update#ctor - updates are disabled due to running as Admin in user setup [main 2023-09-13T07:07:58.497Z] WSL is not installed, so could not detect WSL profiles
（超详细很完整）tensorflow上实现deeplabv3+
爱笑的刺猬: 用xception65训练自己的Model后运行vis.py遇到了Key decoder/decoder_conv0_depthwise/BatchNorm/beta not found in checkpoint这个问题，后来发现是命令中多了decoder_output_stride=4 ，删掉以后正常运行。我找遍了Github仓库也没有人提供解决方法，在这里写一下，可能是一个低级错误吧，警钟长鸣！！！
（超详细很完整）tensorflow下利用deeplabv3+对自己的数据进行训练
爱笑的刺猬: 2023年的回旋镖，求问是怎么解决的呀，我也遇到了这个问题，要疯了
（超详细很完整）记录：巨坑的windows上caffe-ssd配置历程（CPU）
weixin_54715363: 博主，连接失效了
ModuleNotFoundError: No module named 'deeplab'
m0_60989562: 我添加了也没效果

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。