python list去重_Python实战入门数据库篇,把爬取到的数据存到数据库带数据库去重...

717742e1-b442-48c1-81f1-d75a404cd12c

这是python3实战入门系列的第三篇文章,要学习这一篇需要了解前两篇,要不学起来比较费劲

《python3实战入门python爬虫篇001---网页爬虫,图片爬虫,文章爬虫,新闻网站爬虫》

《python3操作数据库002 借助pycharm快速连接并操作mysql数据库》

下面来正式开始把我们第一节爬取到的新闻数据保存到mysql数据中

一,首页我们需要连接数据库

通过定义一个MySQLCommand类来配置数据库连接参数,并定义一个connectMysql方法连接数据库

# -*- coding: utf-8 -*-# 作者微信:2501902696import pymysql# 用来操作数据库的类class MySQLCommand(object): # 类的初始化 def __init__(self): self.host = 'localhost' self.port = 3306 # 端口号 self.user = 'root' # 用户名 self.password = "" # 密码 self.db = "home" # 库 self.table = "home_list" # 表 # 链接数据库 def connectMysql(self): try: self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user, passwd=self.password, db=self.db, charset='utf8') self.cursor = self.conn.cursor() except: print('connect mysql error.')

二,连接完数据库后我们需要插入数据了

插入数据之前我们有两个问题

  • 1,重复的数据如何去重
  • 2,新数据的主键id应该从哪里开始
  • 针对上面的两个问题我贴出一部分代码来看解决思路
# 插入数据,插入之前先查询是否存在,如果存在就不再插入 def insertData(self, my_dict): table = "home_list" # 要操作的表格 # 注意,这里查询的sql语句url=' %s '中%s的前后要有空格 sqlExit = "SELECT url FROM home_list WHERE url = ' %s '" % (my_dict['url']) res = self.cursor.execute(sqlExit) if res: # res为查询到的数据条数如果大于0就代表数据已经存在 print("数据已存在
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值