Kettle数据抽取实战之四:网页数据抽取

本文详细介绍了如何使用Kettle工具进行数据提取。首先在Kettle中新建转换,添加‘生成记录’、‘HTTPclient’、‘GetdataformXML’和‘字段选择’组件。在‘生成记录’中设定URL字段,然后在‘HTTPclient’中配置从字段获取URL并指定结果字段。接着在‘GetdataformXML’中设置XML源字段并指定循环读取路径。通过这些步骤,可以成功抓取并解析XML文件中的数据。

1.运行Kettle,在菜单栏中单击“文件”选项,在弹出的下拉菜单中选择“新建”-“转换”选项,在打开的界面中选择“输入”-“生成记录”选项,在“查询”中选择“HTTP client”选项,在“输入”中选择“Get data form XML”选项,在“转换”中选择“字段选择”选项,将它们拖拽到中间工作区域,并建立及诶单链接,生成界面如下图
在这里插入图片描述
2.双击打开“生成记录”对话框,在“名称”列输入“url”,在“类型”列输入“String”,在“值”列输入网址:https://services.odata.org/V3/Northwind/Northwind.svc/Products/,如下图
在这里插入图片描述
3.单击“预览”,可查看生成记录的数据,如下图
在这里插入图片描述
4.双击“HTTP client”,在打开的对话框中选择“从字段中获取URL”,设置“URL字段名”为url,“结果字段名”为result,如下图
在这里插入图片描述
5.双击“Get data form XML”图标,选择“文件”选项卡,选中“XML源定义在一个字段里?”复选框,设置“XML源字段名”为result,如下图

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值