概述
在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。
news_site(新闻来源)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
name | varchar(128) | 来源名称 |
news(新闻)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
title | varchar(128) | 标题 |
site_id | bigint | 外键,指向表news_site的id字段 |
content | text | 内容 |
pub_date | datetime | 发布时间 |
date_created | datetime | 加入时间 |
我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将再此一一介绍。
定义站点、数据集
定义抓取和抽取规则
在这里我们需要填入口地址。入口地址如果有多个,那么要以英文逗号相隔。如下图所示:
接下来我们编写规则时,首先是匹配URL,这里需要填写正则表达式。旁边的“?”号,点击后就会弹出相应的帮助文档。如下图所示:
然后数据集选择则我们要注意,如果抓取的仅需要的是链接,那么是否数据集选择否,且数据集字段必须要有一个名为href的字段。如下图所示:
否则是否数据集应该选择是,且数据集字段必须要有一个名为sn的字段。sn字段存放的数据一般是唯一值,相当于数据表里的id字段。如下图所示:
完整的规则内容显示如下:
[
{
__sample: http://sousuo.gov.cn/column/