Python爬虫实战：selenium爬取电商平台商品数据

最新推荐文章于 2024-04-22 10:12:52 发布

m0_60707221

最新推荐文章于 2024-04-22 10:12:52 发布

阅读量1.4k

点赞数 21

分类专栏：程序员学习文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/m0_60707221/article/details/136860708

版权

程序员学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’)

button = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/a’)

input.clear()

input.send_keys(page)

button.click()

get_products()

except TimeoutException:

index_page(page)

这里我们依然使用隐式等待来进行 URL 访问，这里小编通过 xpath 的方式获取到了整个页面最下面的翻页组件：

在这里插入图片描述

小编这里的翻页实际上是使用这里的输入框和后面的确认按钮进行的。

获取商品详细数据

这里其实有一个坑，JD 的首页上的图片是懒加载的，就是当页面的滚动条没有滚到这个图片可以显示在屏幕上的位置的时候，这个图片是不会加载出来的。这就造成了小编一开始的只能获取到前 4 个商品的图片地址。

小编后来想了个办法，使用 JavaScript 来模拟滚动条滚动，先将所有的图片加载出来，然后再进行数据的获取，代码如下：

def get_products():

“”"

提取商品数据

“”"

js = ‘’’

timer = setInterval(function(){

var scrollTop=document.documentElement.scrollTop||document.body.scrollTop;

var ispeed=Math.floor(document.body.scrollHeight / 100);

if(scrollTop > document.body.scrollHeight * 90 / 100){

clearInterval(timer);

}

console.log(‘scrollTop:’+scrollTop)

console.log(‘scrollHeight:’+document.body.scrollHeight)

window.scrollTo(0, scrollTop+ispeed)

}, 20)

‘’’

driver.execute_script(js)

time.sleep(2.5)

html = driver.page_source

doc = PyQuery(html)

items = doc(‘#J_goodsList .gl-item .gl-i-wrap’).items()

i = 0

for item in items:

insert_data = {

‘image’: item.find(‘.p-img a img’).attr(‘src’),

‘price’: item.find(‘.p-price i’).text(),

‘name’: item.find(‘.p-name em’).text(),

‘commit’: item.find(‘.p-commit a’).text(),

‘shop’: item.find(‘.p-shop a’).text(),

‘icons’: item.find(‘.p-icons .goods-icons’).text()

}

i += 1

print(‘当前第’, str(i), ‘条数据，内容为：’ , insert_data)

中间那段 js 就是模拟滚动条向下滚动的代码，这里小编做了一个定时任务，这个定时任务将整个页面的长度分成了 100 份，每 20 ms 就向下滚动 1% ，共计应该总共 2s 可以滚到最下面，这里下面做了 2.5s 的睡眠，保证这个页面的图片都能加载出来，最后再获取页面上的数据。

主体代码到这里就结束了，剩下的代码无非就是将数据保存起来，不管是保存在数据中还是保存在 Excel 中，或者是 CSV 中，又或者是纯粹的文本文件 txt 或者是 json ，都不难，小编这次就不写了，希望大家能自己完善下这个代码。

运行的时候，可以看到一个浏览器弹出来，然后滚动条自动以比较顺滑的速度滚到最下方（小编为了这个顺滑的速度调了很久），确保所有图片都加载出来，再使用 pyquery 获取相关的数据，最后组成了一个 json 对象，给大家看下抓取下来的结果吧：

在这里插入图片描述

Chrome 无界面模式

我们在爬取数据的时候，弹出来一个浏览器总感觉有点老不爽了，可以使用如下命令将这个浏览器隐藏起来，不过需要的是 Chrome 比较新的版本。

开启无窗口模式

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument(‘–headless’)

driver = webdriver.Chrome(chrome_options=chrome_options)

首先，创建 ChromeOptions 对象，接着添加 headless 参数，然后在初始化 Chrome 对象的时候通过 chrome_options 传递这个 ChromeOptions 对象，这样我们就可以成功启用 Chrome 的Headless模式了。

FireFox

如果我们不想使用 Chrome 浏览器，还可以使用 FireFox 浏览器，前提是需要安装好 FireFox 和对应的驱动 GeckoDriver ，并且完成相关配置，不清楚如何安装的同学可以翻一翻前面的前置准备。

我们需要切换 FireFox 浏览器的时候，异常的简单，只需要修改一句话就可以了：

driver = webdriver.Firefox()

这里我们修改了 webdriver 初始化的方式，这样在接下来的操作中就会自动使用 FireFox 浏览器了。

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）
[外链图片转存中…(img-uWzV2ITB-1710878172698)]

m0_60707221

关注

21
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实战：selenium爬取电商平台商品数据

这里我们依然使用隐式等待来进行 URL 访问，这里小编通过 xpath 的方式获取到了整个页面最下面的翻页组件：小编这里的翻页实际上是使用这里的输入框和后面的确认按钮进行的。获取商品详细数据这里其实有一个坑，JD 的首页上的图片是懒加载的，就是当页面的滚动条没有滚到这个图片可以显示在屏幕上的位置的时候，这个图片是不会加载出来的。这就造成了小编一开始的只能获取到前 4 个商品的图片地址。
复制链接

扫一扫