【selenium爬取京东商品信息加载失败】

解决selenium爬取京东商品信息加载失败

之前遇到了一个问题,也就是在使用selenium库爬取京东商品信息的时候,
商品信息会显示加载失败。
现在呢在这记录一下,希望可以帮到同样遇到这个问题的小伙伴,
出现原因是网站识别到是webdriver自动化框架了,然后呢解决办法很多,
在这里推荐一个最简单实用的,那就是使用DrissionPage库来爬取。

这是官方介绍链接: https://drissionpage.cn/
使用也是非常简单,看着文档来就好了。
最后希望可以帮到你哈!

DrissionPage是一个JavaScript渲染驱动的爬虫框架,它允许开发者在浏览器环境下解析前端生成的内容,如动态加载或JavaScript操作后的网。如果你想利用DrissionPage爬取京东商品的评论,你可以按照以下步骤操作: 1. **安装依赖**:首先需要安装`drission`库和其他相关的依赖,例如`puppeteer`用于控制浏览器,`cheerio`处理HTML。 ```bash npm install drission puppeteer cheerio ``` 2. **启动浏览器**:创建一个DrissionSession实例并打开京东商品详情面。 ```javascript const { Drission } = require('drission'); const browser = await Drission.launch(); const page = await browser.newPage(); await page.goto('https://item.jd.com/<商品ID>.html', { waitUntil: 'networkidle0' }); ``` 记得替换`<商品ID>`为你想抓取的具体商品的ID。 3. **分析DOM结构**:使用Cheerio解析加载完成的面内容,查找评论区域的元素,这通常隐藏在JavaScript渲染后的部分。 ```javascript const $ = await page.jQuery(); // 获取jQuery实例 const comments = $('div.comment-list'); // 假设评论在CSS类名下是comment-list ``` 4. **提取数据**:遍历评论列表,提取每个评论的关键信息,如用户昵称、评论内容等。 5. **保存数据**:将获取到的数据存储到文件或数据库中。 ```javascript comments.each((index, element) => { const comment = { author: $(element).find('.author').text(), content: $(element).find('.content').text() }; // ... 写入文件或数据库 }); ``` 6. **关闭浏览器**:爬取完成后别忘了关闭浏览器资源。 ```javascript await browser.close(); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值