- 博客(5)
- 收藏
- 关注
原创 Golddata如何采集需要登录/会话的数据?
概要 本文将介绍使用GoldData半自动登录功能,来采集需要登录网站的数据。GoldData半自动登录功能,就是指通过脚本来执行登录,如果需要验证码或者其它内容需要人工输入时,可以通过收发邮件来执行登录流程。 下载例子 为了讲解方便,我们以采集mydict的单词数据来讲解采集需要登录的网站数据。这个mydict例子程序可以从开源网站下载到( https://github.com/TheGoldD...
2019-04-05 19:08:11
275
原创 如何一步到位将级联数据融合到自关联表?
概述 在本篇中,将接续上一篇使用GoldData已抓取的省市县这样的级联数据融合到数据库自关联应用表中,也就是将area级联数据集融合到自关联表area中,我们先看级联数据集字段和数据,以及area表结构,如下图所示: 这每一条记录与一条父记录存在关联,通常将数据导入这样的表,是个有挑战性的问题,在这里我们将看到如何在GoldData中轻松做到这一点。 创建融合映射 打开融合管理,选择数据集为...
2019-03-16 16:05:07
582
原创 如何采集级联数据(比如最新省市县)呢?
概述 通常抓取级联数数据情况不多,但要是真需要时,确多了一些麻烦,比如抓取商品分类级别信息等。本内容将讲述如何采集无限级联联数据,并以GoldData来抓取2019年最新的省市县三级为示例。 创建数据集 在数据集管理里,添加数据集area。如下图所示: 数据集相当于数据库中的表,只是字段是灵活的,可以随着需要而添加和变更。 创建规则 在规则管理里,添加规则arearule,并将地址http://...
2019-03-15 13:05:47
664
原创 GoldData将采集数据融合到两张关联关系表
概述 在上一期中,我们抓取了新闻数据,现在我们要通过GoldData融合到两张数据库表news_site和news表当中去。如下图所示: 我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将接上一期在此一一介绍。 定义融合映射 数据集news ==> 表news_site 在“融合管理”中,选择数据集"news",选择数据库表news_site点击“添加”按扭,然后再点击“...
2019-03-14 11:47:18
253
原创 GoldData学习实例-采集官网新闻数据
概述 在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。 news_site(新闻来源) 字段 类型 说明 id bigint 主键,自动增长 name varchar(128) 来源名称 news(新闻) 字段 类型 说明 id bigint 主键,自动增长 title varchar(1...
2019-03-14 11:44:26
335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅