声明
1.请正确使用网页爬虫,不得使用爬虫爬取非法数据,不得影响他人服务器的正常工作。
2.本文爬取的数据为跨境网站商品公开信息,本文仅用于学习交流。
3.本文附带源码爬取时间间隔为10s,数据获取量为2000余条。
任务目标
将一个某电商大数据网站后台公开的几千条商品数据给抓取下来,并将数据保存到Excel中,以便进行数据分析使用。
难度分析
- 需要登录网站会员账户,在后台中查看数据。网站已经设置了反爬,模拟登录比较困难。
- 使用Selenium控制Chrome浏览器,在测试模式下,能够被该网站识别,不能正常登录帐号。
- 数据需要刷新页面后,才能正常显示。
难点解决
- 网上搜索各种隐藏Selenium特征的方法,都失败,所以通过Selenium新打开浏览器的方法行不通。而且很多网站可以通过多个特征来识别出你使用了Selenium。