GoldData学习实例-采集官网新闻数据

本文档详细介绍了如何使用GoldData工具抓取政府官网新闻数据,并将其整合到news_site和news两张数据表中。内容涵盖定义站点、数据集,设定抓取和抽取规则,配置启动抓取器,以及查看和导出数据的步骤。
摘要由CSDN通过智能技术生成

概述

source1

在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。

news_site(新闻来源)

字段 类型 说明
id bigint 主键,自动增长
name varchar(128) 来源名称

news(新闻)

字段 类型 说明
id bigint 主键,自动增长
title varchar(128) 标题
site_id bigint 外键,指向表news_site的id字段
content text 内容
pub_date datetime 发布时间
date_created datetime 加入时间

我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将再此一一介绍。

定义站点、数据集

define_site

define_dataset

定义抓取和抽取规则

在这里我们需要填入口地址。入口地址如果有多个,那么要以英文逗号相隔。如下图所示:

entry

接下来我们编写规则时,首先是匹配URL,这里需要填写正则表达式。旁边的“?”号,点击后就会弹出相应的帮助文档。如下图所示:

url_match

然后数据集选择则我们要注意,如果抓取的仅需要的是链接,那么是否数据集选择否,且数据集字段必须要有一个名为href的字段。如下图所示:

dataset_href

否则是否数据集应该选择是,且数据集字段必须要有一个名为sn的字段。sn字段存放的数据一般是唯一值,相当于数据表里的id字段。如下图所示:

dataset_sn

完整的规则内容显示如下:

[
  {
   
    __sample: http://sousuo.gov.cn/column/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值