爬虫之京东年度账单

最新推荐文章于 2024-07-23 11:05:47 发布

maicss

最新推荐文章于 2024-07-23 11:05:47 发布

阅读量1.3k

点赞数

分类专栏： Python爬虫文章标签：京东爬虫 Python

本文链接：https://blog.csdn.net/maicss/article/details/50549781

版权

作者尝试通过爬虫获取京东年度账单，解析每个订单的tbody结构，但遇到拆分订单时出现复杂布局。成功抓取第一页数据，后续页面出现异常。作者承认目前能力有限，无法应对可能的反爬虫措施，计划进一步完善并学习Python与MySQL的结合应用。

摘要由CSDN通过智能技术生成

前几天支付宝上给出了年度账单，也手痒痒想看看京东的年度账单。找了很久，发现官方没有给。那我就试着做一个呗

使用的是requests和Beautifulsoup4

每个订单是一个tbody，但是遇到拆分的订单，就会拆成订单个数加1的结构，第一个是一个id为parent-*的tbody，这个里面有收件人姓名，订单时间，订单号码，总金额。但是下面的拆分订单也有自己的订单号，订单金额和收货人姓名。所以对于我来说，这个parent的tbody可以直接略过。
这样，直接找到所有的id为tb-***的tbody就是所有的订单了。这里的订单只有一个总价，和收货人姓名都在每个列表项的第一个列表中，可以直接find就行了。
下面就是循环每个class为tr-bd的tr项拿到每个商品的名称、商品的链接、商品个数。但是比较扯的是。很多订单下面会又一个class为tr-bd sep-tr-bd的空白标签，作用就是给两个商品中间加一行空格…这个有点坑，用这个代码能搞定parent.find_all(lambda tag: tag.name == 'tr' and tag.get('class') == ['tr-bd']) 就得到了只有tr-bd的tr了。

关注

专栏目录