爬虫之京东年度账单

作者尝试通过爬虫获取京东年度账单,解析每个订单的tbody结构,但遇到拆分订单时出现复杂布局。成功抓取第一页数据,后续页面出现异常。作者承认目前能力有限,无法应对可能的反爬虫措施,计划进一步完善并学习Python与MySQL的结合应用。
摘要由CSDN通过智能技术生成

前几天支付宝上给出了年度账单,也手痒痒想看看京东的年度账单。找了很久,发现官方没有给。那我就试着做一个呗

结构

使用的是requestsBeautifulsoup4

  • 每个订单是一个tbody,但是遇到拆分的订单,就会拆成订单个数加1的结构,第一个是一个id为parent-*的tbody,这个里面有收件人姓名,订单时间,订单号码,总金额。但是下面的拆分订单也有自己的订单号,订单金额和收货人姓名。所以对于我来说,这个parent的tbody可以直接略过。

  • 这样, 直接找到所有的id为tb-***的tbody就是所有的订单了。这里的订单只有一个总价,和收货人姓名都在每个列表项的第一个列表中,可以直接find就行了。

  • 下面就是循环每个class为tr-bd的tr项拿到每个商品的名称、商品的链接、商品个数。但是比较扯的是。很多订单下面会又一个class为tr-bd sep-tr-bd的空白标签,作用就是给两个商品中间加一行空格…这个有点坑,用这个代码能搞定parent.find_all(lambda tag: tag.name == 'tr' and tag.get('class') == ['tr-bd']) 就得到了只有tr-bd的tr了。

结果

  • 按理说这个爬虫已经完工了,我直接以时间为key,其他的属
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值