自己做一个增量式爬虫

最新推荐文章于 2023-02-15 22:48:08 发布

小马AAA

最新推荐文章于 2023-02-15 22:48:08 发布

阅读量537

点赞数

分类专栏：爬虫实战文章标签： python mysql

本文链接：https://blog.csdn.net/qq_45796631/article/details/103997511

版权

本文介绍了增量式爬虫的概念和应用场景，并提供了一种简单实现方式，即通过设置数据库字段为唯一键来避免重复数据。文章提到了利用MySQL和requests工具进行数据抓取，同时讨论了利用时间戳和预存数据库ID列表来节省IO操作的策略。

摘要由CSDN通过智能技术生成

增量式爬虫

一.概念

顾名思义，增量，也就是增加数量，但是是在原有基础上增加数量，也就是说自动甄别重复数据，只爬取网站最新更新的数据

二.应用场景

增量式爬虫的应用场景还是挺多的，例如一些新闻网站，时时刻刻都在更新，那么为了保证每次运行程序都不会爬取已经采集过的信息，就需要使用增量式爬虫的思路了

爬虫以采集数据为目的，所以只要符合增量式的思想就好了，至于实现方法有好多种，这里我使用比较简单的方法，将数据库中的字段设为unique

工具：mysql requests

这里爬取新浪滚动新闻，因为该网站是实时更新的，正符合增量式爬虫的应用场景，代码如下

import json
from lxml import etree
import requests
import MySQLdb

conn = MySQLdb.connect(
    user = 'root',
    password = '',  # 数据库密码
    port = 3306,
    db = 'spider',
    host = 'localhost',
    charset = 'utf8'
)

cursor = conn.cursor()

page_index = 1

while