Python数据库 -- 查询结果处理、SQL表内数据去重

最新推荐文章于 2024-04-26 14:16:06 发布

啦啦啦___123

最新推荐文章于 2024-04-26 14:16:06 发布

阅读量2.2k

点赞数 2

分类专栏： Debug记录、编程小技巧文章标签： python mysql 数据分析数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhr603894090/article/details/112555662

版权

目录

Python脚本查询数据库及返回结果的处理

MySQL表内既有数据的去重思想及SQL语句

需求

每次在爬动态的时候都会把前几条重复爬取，以前想着先把功能完善了再说。终于，功能做完了，要面对这个数据问题了。

想法是先看看领英的帖子是否有跟脸书一样的独特标志，可以用做识别的，但是检查元素后发现没有，那就只能对比内容来做重复识别了。

那么接下来的步骤很简单，也很低效率，每次先从数据库中读出所有的 content 列的内容，存到一个列表中，再检测每篇文章的内容，若已存在，就跳过这篇文章不再爬取。

方法成功执行，数据不再高度冗余。

后期预计加入检测评论数和点赞数的变化，来判断是否更新这条记录，更新预计使用update语句。

Python脚本查询数据库及返回结果的处理

Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据。

fetchone(): 该方法获取下一个查询结果集。结果集是一个

最低0.47元/天解锁文章

啦啦啦___123

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python数据库 -- 查询结果处理、SQL表内数据去重

Python脚本查询数据库及返回结果的处理MySQL表内既有数据的去重思想及SQL语句
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。