当当网书籍数据爬进数据库

最新推荐文章于 2024-04-26 03:23:26 发布

冲击。

最新推荐文章于 2024-04-26 03:23:26 发布

阅读量596

点赞数 2

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44766315/article/details/106789072

版权

本文介绍了如何使用Python爬取当当网的书籍数据并存储到数据库中。过程中，作者遇到了包括数据格式错误、数据库连接及插入问题、评论数获取错误以及导入模块路径不正确等常见问题，并逐一进行了解决。最后，作者分享了完整的爬虫实现流程，适合Python爬虫初学者参考。

摘要由CSDN通过智能技术生成

当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制，几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些，然后在items.py下面全部写出来。
在这里插入图片描述然后就写爬虫文件
从核心文件开始定位导入items里面的类。（一定不要导入错了）
对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧，那就一定要加循环了。
仔细观察后发现又100页。所以循环如下：在这里插入图片描述在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除，并且还要将类名与之相对应。pipelines主要是进行后续处理的。所以大致代码如下：
但是写在一个tx

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
5
评论
当当网书籍数据爬进数据库

当当网书籍数据爬取首先我们要考虑到当当网有没有反爬机制，几次后发现是没有的。一开始我们要考虑我们要爬取的信息是哪些，然后在items.py下面全部写出来。然后就写爬虫文件从核心文件开始定位导入items里面的类。（一定不要导入错了）对应的爬取地址写好就用yield返回。然后肯定不想只爬取一页的书籍吧，那就一定要加循环了。仔细观察后发现又100页。所以循环如下：在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除，并且还要将类名与之相对应。pipeline
复制链接

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。