当当网书籍数据爬进数据库

本文介绍了如何使用Python爬取当当网的书籍数据并存储到数据库中。过程中,作者遇到了包括数据格式错误、数据库连接及插入问题、评论数获取错误以及导入模块路径不正确等常见问题,并逐一进行了解决。最后,作者分享了完整的爬虫实现流程,适合Python爬虫初学者参考。
摘要由CSDN通过智能技术生成

当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制,几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些,然后在items.py下面全部写出来。
在这里插入图片描述然后就写爬虫文件
核心文件开始定位导入items里面的类。(一定不要导入错了)
在这里插入图片描述对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧,那就一定要加循环了。
仔细观察后发现又100页。所以循环如下:在这里插入图片描述在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除,并且还要将类名与之相对应。在这里插入图片描述pipelines主要是进行后续处理的。 所以大致代码如下:
在这里插入图片描述但是写在一个tx

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值