增量式爬虫
一.概念
顾名思义,增量,也就是增加数量,但是是在原有基础上增加数量,也就是说自动甄别重复数据,只爬取网站最新更新的数据
二.应用场景
增量式爬虫的应用场景还是挺多的,例如一些新闻网站,时时刻刻都在更新,那么为了保证每次运行程序都不会爬取已经采集过的信息,就需要使用增量式爬虫的思路了
爬虫以采集数据为目的,所以只要符合增量式的思想就好了,至于实现方法有好多种,这里我使用比较简单的方法,将数据库中的字段设为unique
工具:mysql requests
这里爬取新浪滚动新闻,因为该网站是实时更新的,正符合增量式爬虫的应用场景,代码如下
import json
from lxml import etree
import requests
import MySQLdb
conn = MySQLdb.connect(
user = 'root',
password = '', # 数据库密码
port = 3306,
db = 'spider',
host = 'localhost',
charset = 'utf8'
)
cursor = conn.cursor()
page_index = 1
while