python爬虫教程：实现增量去重和定时爬取实例

最新推荐文章于 2024-04-09 17:47:36 发布

程序员arlly

最新推荐文章于 2024-04-09 17:47:36 发布

阅读量1.3k

点赞数

分类专栏： python爬虫文章标签： python 大数据数据库

本文链接：https://blog.csdn.net/haoxun12/article/details/104977634

版权

本文介绍了如何在Python爬虫中实现增量去重和定时爬取，以避免重复数据入库，并针对实时更新的网站提供解决方案。内容包括目标URL获取、网页解析、数据库存入（增量去重）、异常处理及定时爬取的实现。同时，提供了数据库配置和主要代码示例。

摘要由CSDN通过智能技术生成

前言：在爬虫过程中，我们可能需要重复的爬取同一个网站，为了避免重复的数据存入我们的数据库中通过实现增量去重去解决这一问题本文还针对了那些需要实时更新的网站增加了一个定时爬取的功能；

本文作者同开源中国（殊途同归_）；

解决思路：

1.获取目标url

2.解析网页

3.存入数据库（增量去重）

4.异常处理

5.实时更新（定时爬取）

下面为数据库的配置 mysql_congif.py：

import pymysql
  
  
def insert_db(db_table, issue, time_str, num_code):
  host = '127.0.0.1'
  user = 'root'
  password = 'root'
  port = 3306
  db = 'lottery'
  data_base = pymysql.connect(host=host, user=user, password=password, port=port, db=db)
  cursor = data_base.cursor()
  try:
    sql = "INSERT INTO %s VALUES ('%s','%s','%s')" % (db_table, issue, time_str, num_code)
    cursor.execute(sql)
    data_base.commit()
  except ValueError as e:
    print(e)
    data_base.rollback