爬虫经验小总结

最新推荐文章于 2024-10-10 11:35:14 发布

菜到怀疑人生

最新推荐文章于 2024-10-10 11:35:14 发布

阅读量830

点赞数 2

分类专栏： crawler python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dhaiuda/article/details/82667651

版权

crawler 同时被 2 个专栏收录

18 篇文章 3 订阅

订阅专栏

16 篇文章 14 订阅

订阅专栏

前言

项目组要我爬取一些营养数据，过程曲折，还是有许多体会的，总结一下，防止以后在入坑

注意事项

存取爬取数据时，要保留数据来源的url，以便以后发现数据有误以后可以矫正
如果插入数据到有外键的数据库，一定要把所有的插入语句组成一个事务，否则一旦出现异常，数据就不一致了
存储文本信息到mysql时尽量使用text类型，指不定就爆出长度不够
要做好重复处理的标记，我习惯使用广度优先，一批一批的存url，存储待爬取url的数据表需要有status字段，以便判断爬取url对应网页的数据时是否出现错误，毕竟网页格式可能会发生变换
先设计好表结构后在写代码，我之前先写好了爬取代码，结果师兄给我的表结构的存储类型中有json，费了我一些精力才改过自己的代码
爬取频率自己要摸透，因为不同网站采取的反爬策略是不一样的，有些可能返回HTTP状态码，有些可能放毒（最可怕），有些可能封禁IP（例如豆瓣的封禁IP，不过豆瓣可以很容易判断自己是不是被封了），所以尽可能的不要被封禁，被封禁，麻烦可能就大了，尤其是放毒
存取爬取数据的数据表可能有多个，一般我会把id作为主键，如果一个表格有外键，外键尽量不要引用主键（id），因为表格一旦合并，id就全变了，外键就没用了

关于爬虫，自己还是不够ok，看看如何进一步学习吧

菜到怀疑人生

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。