如何利用BeautifulSoup选择器抓取京东网商品信息

最新推荐文章于 2022-02-24 00:03:04 发布

Python进阶者

最新推荐文章于 2022-02-24 00:03:04 发布

阅读量809

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdcfighting/article/details/106315081

版权

昨天小编利用Python正则表达式爬取了京东网商品信息，看过代码的小伙伴们基本上都坐不住了，辣么多的规则和辣么长的代码，悲伤辣么大，实在是受不鸟了。不过小伙伴们不用担心，今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~

HTML文件其实就是由一组尖括号构成的标签组织起来的，每一对尖括号形式一个标签，标签之间存在上下关系，形成标签树；因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

如何利用BeautifulSoup抓取京东网商品信息

首先进入京东网，输入自己想要查询的商品，向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象，之后得到后面这一串网址：https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8，其中参数的意思就是我们输入的keyword，在本例中该参数代表“狗粮”，具体详情可以参考Python大神用正则表达式教你搞定京东商品信息。所以，只要输入keyword这个参数之后，将其进行编码，就可以获取到目标URL。之后请求网页，得到响应，尔后利用bs4选择器进行下一步的数据采集。

商品信息在京东官网上的部分网页源码如下图所示：

如何利用BeautifulSoup抓取京东网商品信息

仔细观察源码，可以发现我们所需的目标信息是存在

标签下的，那么接下来我们就像剥洋葱一样，一层一层的去获取我们想要的信息。

直接上代码，如下图所示：

通常URL编码的方式是把需要编码的字符转化为%xx的形式，一般来说URL的编码是基于UTF-8的，当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

之后利用美丽的汤去提取目标信息，如商品的名字、链接、图片和价格，具体的代码如下图所示：

在本例中，有个地方需要注意，部分图片的链接是空值，所以在提取的时候需要考虑到这个问题。其解决方法有两个，其一是如果使用img['src']会有报错产生，因为匹配不到对应值；但是使用get['src']就不会报错，如果没有匹配到，它会自动返回None。此外也可以利用try+except进行异常处理，如果匹配不到就pass，小伙伴们可以自行测试一下，这个代码测速过程在上图中也有提及哈。使用get方法获取信息，是bs4中的一个小技巧，希望小伙伴们都可以学以致用噢~

最后得到的效果图如下所示：

新鲜的狗粮出炉咯~

小伙伴们，有没有发现利用BeautifulSoup来获取目标信息比正则表达式要简单一些呢？想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

Python进阶者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。