Python数据库 -- 查询结果处理、SQL表内数据去重

目录

需求

Python脚本查询数据库及返回结果的处理 

MySQL表内既有数据的去重思想及SQL语句 


需求

每次在爬动态的时候都会把前几条重复爬取,以前想着先把功能完善了再说。终于,功能做完了,要面对这个数据问题了。

想法是先看看领英的帖子是否有跟脸书一样的独特标志,可以用做识别的,但是检查元素后发现没有,那就只能对比内容来做重复识别了。

那么接下来的步骤很简单,也很低效率,每次先从数据库中读出所有的 content 列的内容,存到一个列表中,再检测每篇文章的内容,若已存在,就跳过这篇文章不再爬取。

方法成功执行,数据不再高度冗余。

后期预计加入检测评论数和点赞数的变化,来判断是否更新这条记录,更新预计使用update语句。

 

Python脚本查询数据库及返回结果的处理 

Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据。

  • fetchone(): 该方法获取下一个查询结果集。结果集是一个
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值