淘宝爬取图片和url

刚开始爬取了 百度图片和搜狗图片

但是图片不是很多,随后继续爬取淘宝图片,但是淘宝反爬比较厉害 之前的方法不能用

记录可行的 淘宝爬取 利用selenium爬取

https://cloud.tencent.com/developer/article/1151774

github

https://github.com/Python3WebSpider/TaobaoProduct

(需要修改代码,自己扫码登陆 继续爬)看issues

注意:爬多了 肯能出现滑块验证 使用开发者模式避免

利用pyquery进行搜索   就不需要正则表达式了

使用方法

https://www.cnblogs.com/gj5379/p/8514535.html

在Python中,使用`DredissonPage`库来爬取淘宝商品评论和图片通常涉及到网络爬虫技术,特别是结合了Redisson(一个分布式内存数据结构服务)和第三方爬虫库,比如Scrapy、BeautifulSoup等。以下是一个简化的步骤概述: 1. **安装必要的库**: 首先需要安装`scrapy`, `redisson-python`以及用于解析HTML的库如`lxml`或`beautifulsoup4`。 ```bash pip install scrapy redisson lxml # 或者 beautifulsoup4 ``` 2. **设置Scrapy项目**: 创建一个新的Scrapy项目,并配置好settings.py文件,启用Redis中间件。 3. **创建Spider**: 在spiders目录下创建一个 Spider 类,如TaoBaoSpider,继承自`CrawlSpider`。在这个类中,你需要定义start_urls列表包含淘宝商品页面的URL,以及解析规则。 4. **处理Redisson**: 使用Redisson连接到Redis服务器,并通过它存储爬取的数据,例如评论和图片链接。可以使用`RList`来暂存评论列表,`RMap`存储图片链接。 ```python from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy_redis.spiders import RedisCrawlSpider import redisson class TaoBaoSpider(CrawlSpider): name = 'taobao' # 爬虫配置... def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) self.redis_client = redisson.Redisson(host='your_redis_host', port=your_redis_port) def parse(self, response): # 解析评论和图片链接... comment_list = response.css('div.comment') # 假设评论在CSS选择器中找到 for comment in comment_list: yield { 'comment': comment.text, # 如果有图片链接,提取并存储到Redis 'image_url': comment.css('img::attr(src)').get(), } # 将评论数据存储到Redis中 rlist = self.redis_client.lpush('comments', *map(str, [comment['comment'] for comment in comments])) # 获取下一页链接,如果有的话 next_page = response.xpath('//a[@rel="next"]').xpath('@href').get() if next_page: yield response.follow(next_page, callback=self.parse) ``` 5. **运行爬虫**: 完成上述设置后,在命令行中运行Scrapy,开始爬取淘宝商品的评论和图片。 注意:淘宝网站可能会有反爬虫策略,频繁抓取可能触发封禁,所以请确保遵守相关法规和网站政策,并合理设置爬取频率和间隔。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值