python 爬虫实现增量去重和定时爬取实例

程序员浩然

于 2020-03-03 21:59:38 发布

阅读量3.2k

点赞数 6

分类专栏： python爬虫教程文章标签：编程语言 python

本文链接：https://blog.csdn.net/haoxun09/article/details/104642467

版权

前言：在爬虫过程中，我们可能需要重复的爬取同一个网站，为了避免重复的数据存入我们的数据库中通过实现增量去重去解决这一问题本文还针对了那些需要实时更新的网站增加了一个定时爬取的功能；

本文作者同开源中国（殊途同归_）；

解决思路：

1.获取目标url

2.解析网页

3.存入数据库（增量去重）

4.异常处理

5.实时更新（定时爬取）

下面为数据库的配置 mysql_congif.py：

import pymysql
  
  
def insert_db(db_table, issue, time_str, num_code):
  host = '127.0.0.1'
  user = 'root'
  password = 'root'
  port = 3306
  db = 'lottery'
  data_base = pymysql.connect(host=host, user=user, password=password, port=port, db=db)
  cursor = data_base.cursor()
  try:
    sql = "INSERT INTO %s VALUES ('%s','%s','%s')" % (db_table, issue, time_str, num_code)
    cursor.execute(sql)
    data_base.commit()
  except ValueError as e:
    print(e)
    data_base.rollback()
  finally:
    cursor.c

最低0.47元/天解锁文章

程序员浩然

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
4
评论
python 爬虫实现增量去重和定时爬取实例

前言：在爬虫过程中，我们可能需要重复的爬取同一个网站，为了避免重复的数据存入我们的数据库中通过实现增量去重去解决这一问题本文还针对了那些需要实时更新的网站增加了一个定时爬取的功能；本文作者同开源中国（殊途同归_）；解决思路：1.获取目标url2.解析网页3.存入数据库（增量去重）4.异常处理5.实时更新（定时爬取）下面为数据库的配置 mysql_congif.py：im...
复制链接

扫一扫