Kettle数据抽取实战之四:网页数据抽取

1.运行Kettle,在菜单栏中单击“文件”选项,在弹出的下拉菜单中选择“新建”-“转换”选项,在打开的界面中选择“输入”-“生成记录”选项,在“查询”中选择“HTTP client”选项,在“输入”中选择“Get data form XML”选项,在“转换”中选择“字段选择”选项,将它们拖拽到中间工作区域,并建立及诶单链接,生成界面如下图
在这里插入图片描述
2.双击打开“生成记录”对话框,在“名称”列输入“url”,在“类型”列输入“String”,在“值”列输入网址:https://services.odata.org/V3/Northwind/Northwind.svc/Products/,如下图
在这里插入图片描述
3.单击“预览”,可查看生成记录的数据,如下图
在这里插入图片描述
4.双击“HTTP client”,在打开的对话框中选择“从字段中获取URL”,设置“URL字段名”为url,“结果字段名”为result,如下图
在这里插入图片描述
5.双击“Get data form XML”图标,选择“文件”选项卡,选中“XML源定义在一个字段里?”复选框,设置“XML源字段名”为result,如下图
在这里插入图片描述
6.选择“内容”选项卡,在“循环读取路径”文本框中输入“/feed/entry/content/m:properties”,该路径是XML语法中的Xpath查询,用于读取网页数据中的节点内容,如下图
在这里插入图片描述
7.选择“字段”选项卡,在其中输入下面字段内容,如下图
在这里插入图片描述
8.双击“获取字段”,在“选择和修改”中输入字段内容,如下图
在这里插入图片描述
9.保存该文件,运行“执行”,在“执行结果”栏中的“步骤度量”查看执行状况,如下图
在这里插入图片描述

  • 1
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值