Watson Explorer 入门(3)：创建搜寻器（crawler，数据爬虫）

最新推荐文章于 2021-01-27 12:35:09 发布

许野平

最新推荐文章于 2021-01-27 12:35:09 发布

阅读量942

点赞数

分类专栏：人工智能文章标签： Watson Explorer WEX

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quicmous/article/details/70323264

版权

人工智能专栏收录该内容

96 篇文章 4 订阅

订阅专栏

（许野平的 Watson Explorer 笔记）

创建集合后，可以看到如下界面：

这里写图片描述

我们可以看到三个面板：1-搜寻与导入；2-解析和索引；3-搜索和内容分析。本练习讨论搜寻器的创建和配置，以及如何导入数据。

“搜寻器”的英文是 crawler，俗称爬虫，用于从网络、硬盘等数据源自动抓取数据。因为创建界面很直观，步骤不一一细说了，这里说一下几个需要注意的问题。

数据源问题

前几天在一次培训课程中，不少同学提到这个问题。实际上，Watson Explorer 有些类似数据库，能从很多类型数据源获取数据。还没仔细研究它的系统架构设计，但是我想，这个架构中一定会提供一个开放式接口处理这件事情。

NHTSA数据

在这个练习中，我们选择了 NHTSA 投诉数据，数据是 XML 格式的。所以，数据源类型在这个练习中选择的是 Windows 本地文件系统。但是我翻遍了所有可能的位置，都没能找到这些文档。最后找到一份Excel格式的文件，里面的数据正是 NHTSA 投诉数据，内容很多，于是这里就拿来做练习。

这里写图片描述

为了确保兼容性，我把数据存成了 .csv 格式。

数据源文件夹设置

Web操作界面，有些不太习惯。反复操作了几遍，发现熟悉后还是挺方便操作。操作要点如下：

可以指定子文件夹的搜索层次。我找到的这些文件分布在用日期命名的多个子文件夹内，导入的时候，只需要指定他们的根文件夹和子文件夹搜索深度就行了，这个确实很方便。
可以指定文件类型。这里，我直接指定 .csv 扩展名。

数据直接导入

.csv 格式的文件可以直接导入，这样就不需要爬虫来做这个任务了。这个练习中，因为没有XML数据，所以我选择了直接导入的方式建立的集合（Collection）。

小结

本练习设定了搜寻器。但是我们只设定了数据来源，目标数据还没设定。接下来设定目标数据后，就可以启动搜寻器，自动抓取并上传数据了。

（未完待续 … …）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Watson Explorer 入门(3)：创建搜寻器（crawler，数据爬虫）

（许野平的 Watson Explorer 笔记）创建集合后，可以看到如下界面：我们可以看到三个面板：1-搜寻与导入；2-解析和索引；3-搜索和内容分析。本练习讨论搜寻器的创建和配置，以及如何导入数据。“搜寻器”的英文是 crawler，俗称爬虫，用于从网络、硬盘等数据源自动抓取数据。因为创建界面很直观，步骤不一一细说了，这里说一下几个需要注意的问题。数据源问题前几天在一次培训课程中，不少同学提到这
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

许野平 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。