自己做一个增量式爬虫

本文介绍了增量式爬虫的概念和应用场景,并提供了一种简单实现方式,即通过设置数据库字段为唯一键来避免重复数据。文章提到了利用MySQL和requests工具进行数据抓取,同时讨论了利用时间戳和预存数据库ID列表来节省IO操作的策略。
摘要由CSDN通过智能技术生成

增量式爬虫

一.概念

顾名思义,增量,也就是增加数量,但是是在原有基础上增加数量,也就是说自动甄别重复数据,只爬取网站最新更新的数据

二.应用场景

增量式爬虫的应用场景还是挺多的,例如一些新闻网站,时时刻刻都在更新,那么为了保证每次运行程序都不会爬取已经采集过的信息,就需要使用增量式爬虫的思路了

爬虫以采集数据为目的,所以只要符合增量式的思想就好了,至于实现方法有好多种,这里我使用比较简单的方法,将数据库中的字段设为unique
工具:mysql requests

这里爬取新浪滚动新闻,因为该网站是实时更新的,正符合增量式爬虫的应用场景,代码如下

import json
from lxml import etree
import requests
import MySQLdb

conn = MySQLdb.connect(
    user = 'root',
    password = '',  # 数据库密码
    port = 3306,
    db = 'spider',
    host = 'localhost',
    charset = 'utf8'
)

cursor = conn.cursor()

page_index = 1

while
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值