自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Golddata如何采集需要登录/会话的数据?

概要本文将介绍使用GoldData半自动登录功能,来采集需要登录网站的数据。GoldData半自动登录功能,就是指通过脚本来执行登录,如果需要验证码或者其它内容需要人工输入时,可以通过收发邮件来执行登录流程。下载例子为了讲解方便,我们以采集mydict的单词数据来讲解采集需要登录的网站数据。这个mydict例子程序可以从开源网站下载到( https://github.com/TheGoldD...

2019-04-05 19:08:11 207

原创 如何一步到位将级联数据融合到自关联表?

概述在本篇中,将接续上一篇使用GoldData已抓取的省市县这样的级联数据融合到数据库自关联应用表中,也就是将area级联数据集融合到自关联表area中,我们先看级联数据集字段和数据,以及area表结构,如下图所示:这每一条记录与一条父记录存在关联,通常将数据导入这样的表,是个有挑战性的问题,在这里我们将看到如何在GoldData中轻松做到这一点。创建融合映射打开融合管理,选择数据集为...

2019-03-16 16:05:07 507

原创 如何采集级联数据(比如最新省市县)呢?

概述通常抓取级联数数据情况不多,但要是真需要时,确多了一些麻烦,比如抓取商品分类级别信息等。本内容将讲述如何采集无限级联联数据,并以GoldData来抓取2019年最新的省市县三级为示例。创建数据集在数据集管理里,添加数据集area。如下图所示:数据集相当于数据库中的表,只是字段是灵活的,可以随着需要而添加和变更。创建规则在规则管理里,添加规则arearule,并将地址http://...

2019-03-15 13:05:47 582

原创 GoldData将采集数据融合到两张关联关系表

概述在上一期中,我们抓取了新闻数据,现在我们要通过GoldData融合到两张数据库表news_site和news表当中去。如下图所示:我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将接上一期在此一一介绍。定义融合映射数据集news ==> 表news_site在“融合管理”中,选择数据集"news",选择数据库表news_site点击“添加”按扭,然后再点击“...

2019-03-14 11:47:18 180

原创 GoldData学习实例-采集官网新闻数据

概述在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。news_site(新闻来源)字段类型说明idbigint主键,自动增长namevarchar(128)来源名称news(新闻)字段类型说明idbigint主键,自动增长titlevarchar(1...

2019-03-14 11:44:26 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除