Selenium控制已打开的浏览器抓取公开跨境电商数据

最新推荐文章于 2024-05-28 16:24:07 发布

九歌编程

最新推荐文章于 2024-05-28 16:24:07 发布

阅读量396

点赞数

文章标签： selenium 爬虫 python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46629227/article/details/112097015

版权

声明

1.请正确使用网页爬虫，不得使用爬虫爬取非法数据，不得影响他人服务器的正常工作。

2.本文爬取的数据为跨境网站商品公开信息，本文仅用于学习交流。

3.本文附带源码爬取时间间隔为10s,数据获取量为2000余条。

点击此处，获取本文源码

任务目标

将一个某电商大数据网站后台公开的几千条商品数据给抓取下来,并将数据保存到Excel中，以便进行数据分析使用。

难度分析

需要登录网站会员账户，在后台中查看数据。网站已经设置了反爬，模拟登录比较困难。
使用Selenium控制Chrome浏览器，在测试模式下，能够被该网站识别，不能正常登录帐号。
数据需要刷新页面后，才能正常显示。

难点解决

网上搜索各种隐藏Selenium特征的方法，都失败，所以通过Selenium新打开浏览器的方法行不通。而且很多网站可以通过多个特征来识别出你使用了Selenium。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Selenium控制已打开的浏览器抓取公开跨境电商数据

文章告知请正确使用网页爬虫，不得使用爬虫爬取非法数据，不得影响他人服务器的正常工作。任务目标同事扔给我一个某电商大数据网站，想让我帮忙把后台公开的几千条数据给抓取下来,并将数据保存到Excel中，以便进行数据分析使用。难度分析需要登录网站会员账户，在后台中查看数据。网站已经设置了反爬，模拟登录比较困难。使用Selenium控制Chrome浏览器，在测试模式下，能够被该网站识别，不能正常登录帐号。数据需要刷新页面后，才能正常显示。解决方法网上搜索各种隐藏Selenium特
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。