Selenium控制已打开的浏览器抓取公开跨境电商数据

 

 

声明

1.请正确使用网页爬虫,不得使用爬虫爬取非法数据,不得影响他人服务器的正常工作。

2.本文爬取的数据为跨境网站商品公开信息,本文仅用于学习交流。

3.本文附带源码爬取时间间隔为10s,数据获取量为2000余条。

点击此处,获取本文源码

任务目标

将一个某电商大数据网站后台公开的几千条商品数据给抓取下来,并将数据保存到Excel中,以便进行数据分析使用。

难度分析

  1. 需要登录网站会员账户,在后台中查看数据。网站已经设置了反爬,模拟登录比较困难。
  2. 使用Selenium控制Chrome浏览器,在测试模式下,能够被该网站识别,不能正常登录帐号。
  3. 数据需要刷新页面后,才能正常显示。

难点解决

  1. 网上搜索各种隐藏Selenium特征的方法,都失败,所以通过Selenium新打开浏览器的方法行不通。而且很多网站可以通过多个特征来识别出你使用了Selenium。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值