Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫)

(许野平的 Watson Explorer 笔记)

创建集合后,可以看到如下界面:

这里写图片描述

我们可以看到三个面板:1-搜寻与导入;2-解析和索引;3-搜索和内容分析。本练习讨论搜寻器的创建和配置,以及如何导入数据。

“搜寻器”的英文是 crawler,俗称爬虫,用于从网络、硬盘等数据源自动抓取数据。因为创建界面很直观,步骤不一一细说了,这里说一下几个需要注意的问题。

数据源问题

前几天在一次培训课程中,不少同学提到这个问题。实际上,Watson Explorer 有些类似数据库,能从很多类型数据源获取数据。还没仔细研究它的系统架构设计,但是我想,这个架构中一定会提供一个开放式接口处理这件事情。

NHTSA数据

在这个练习中,我们选择了 NHTSA 投诉数据,数据是 XML 格式的。所以,数据源类型在这个练习中选择的是 Windows 本地文件系统。但是我翻遍了所有可能的位置,都没能找到这些文档。最后找到一份Excel格式的文件,里面的数据正是 NHTSA 投诉数据,内容很多,于是这里就拿来做练习。

这里写图片描述

为了确保兼容性,我把数据存成了 .csv 格式。

数据源文件夹设置

Web操作界面,有些不太习惯。反复操作了几遍,发现熟悉后还是挺方便操作。操作要点如下:

  • 可以指定子文件夹的搜索层次。我找到的这些文件分布在用日期命名的多个子文件夹内,导入的时候,只需要指定他们的根文件夹和子文件夹搜索深度就行了,这个确实很方便。
  • 可以指定文件类型。这里,我直接指定 .csv 扩展名。

数据直接导入

.csv 格式的文件可以直接导入,这样就不需要爬虫来做这个任务了。这个练习中,因为没有XML数据,所以我选择了直接导入的方式建立的集合(Collection)。

小结

本练习设定了搜寻器。但是我们只设定了数据来源,目标数据还没设定。接下来设定目标数据后,就可以启动搜寻器,自动抓取并上传数据了。

(未完待续 … …)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值