2024年最全Python爬取淘宝商品数据，价值千元的爬虫外包项目(2)

2401_84688721

已于 2024-05-01 21:42:27 修改

阅读量354

点赞数 13

分类专栏：程序员文章标签： python 爬虫开发语言

于 2024-05-01 21:42:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84688721/article/details/138380474

版权

程序员专栏收录该内容

115 篇文章 0 订阅

订阅专栏

确定目标网页

在这里插入图片描述

Selenium 就是模拟人的行为去操作~ 按照流程~

爬取内容：

商品价格
商品名字
销量
店铺名字
发货地

1、获取搜索框元素，输入想要搜索的内容这里咱们呢搜索女士包包的关键词

driver.find_element_by_css_selector(‘#q’).send_keys(‘女式包包’)

2、获取搜索按钮元素，点击搜索

driver.find_element_by_css_selector(‘.search-button’).click()

3、会弹出登陆页面

方案一：

- 获取账号和密码元素，用代码输入~ 合理设置好延时，并不会出现验证码~

方案二：

- 获取支付宝登陆元素，点击手动扫码登陆

在这里插入图片描述

这边选择方案二，方案一是可行的，但是会账号密码，所以这个你们可以自己去尝试

driver.find_element_by_css_selector(‘#login-form > div.login-blocks.sns-login-links > a.alipay-login’).click()

4、获取商品列表页数据

在这里插入图片描述

和普通爬虫解析网站数据一样的~获取列表页标签，然后再二次提取。

这里创建一个字典，接收数据，方便等会保存到csv文件。

lis = driver.find_elements_by_css_selector(‘#mainsrp-itemlist .item’)

dit = {}

for li in lis:

time.sleep(1)

price = li.find_element_by_css_selector(‘.ctx-box .price strong’).text + ‘元’ # 商品价格

dit[‘商品价格’] = price

deal = li.find_element_by_css_selector(‘.ctx-box .deal-cnt’).text # 成交量

dit[‘成交量’] = deal

row = li.find_element_by_css_selector(‘.ctx-box .row-2 a’).text # 商品名字

dit[‘商品名字’] = row

shop = li.find_element_by_css_selector(‘.shop > a > span:nth-child(2)’).text # 店铺名字

dit[‘店铺名字’] = shop

city = li.find_element_by_css_selector(‘.row-3 > div.location’).text # 发货地址

dit[‘发货地址’] = city

5、保存数据

最后一步就是保存数据了，基本操作了

f = open(‘淘宝数据.csv’, mode=‘a’, encoding=‘utf-8-sig’, newline=‘’)

csv_writer = csv.DictWriter(f, fieldnames=[‘商品价格’, ‘成交量’, ‘商品名字’, ‘店铺名字’, ‘发货地址’])

csv_writer.writeheader()

csv_writer.writerow(dit)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

13
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄144天

123
原创

1658
点赞

1826
收藏

1305
粉丝

关注

私信

热门文章

分类专栏

程序员 115篇

最新评论

2024年最新一看就懂，Python 日志模块详解及应用_python class logger(1)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
面试官心理分析+面试题剖析：消息队列+Redis 缓存+分布式系统等等
段子手-168: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，
java高并发系列 - 第30天：JUC中工具类CompletableFuture，必备技能
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年当音乐学博士搞起编程，用一本书改变了Java世界！，springdatajpa面试题
A小码: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
最新Python 基于 TCP 传输协议的网络通信实现
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。