数据抽取与采集
kettle实现文本、json、网页数据的抽取与采集
抢我糖还想跑
这个作者很懒,什么都没留下…
展开
-
Kettle数据抽取实战之一:文本文件抽取
步骤:1.运行Kettle后在菜单栏中单击“文件”菜单项,选择“新建”,选择“转换”选项2.在打开的界面选择“输入”-“文本文件输入”,移动到工作区3.本地新建文本文件test.txt,内容如下id;name;card;sex;age1;张三;0001;M;23;2;李四;0002;M;24;34;王五;0003;M;22;56;赵六;0004;M;21;4.双击“文本文件输入”,进入设置界面,添加test.txt文件,如下图5.将“文件类型”设置为“CSV”,设置“分隔符”原创 2021-09-27 19:30:28 · 2765 阅读 · 0 评论 -
Kettle数据抽取实战之二:CSV文件抽取
步骤:1.准备一个CSV文件,如下图,21380行数据2.运行Kettle后在菜单栏中单击“文件”菜单项,选择“新建”,选择“转换”选项,打开“输入”-“CSV文件输入”,如下图3.双击“CSV文件输入”图标,在文件名中添加CSV文件,打开的对话框中单击“获取字段”按钮,自动获得CSV文件各列表头,如下图4.在打开的界面中选择“输出”-“Excel输出”选项,并将其拖动到屏幕中间,同时选择“CSV文件输入”和“Excel输出”图标,右击,选择“新建节点连接”,如下图5.双击“Excel输原创 2021-09-27 19:57:01 · 909 阅读 · 0 评论 -
Kettle数据抽取实战之三:JSON文件抽取
步骤:1.准备一个test.js的JSON文件,内容如下{"data":[{"name":"Java编程技术","description":"讲述Java程序开发的知识"}]}2.在Kettle中新建“转换”,在输入中选择“自定义常量数据”和JSON input,建立节点连接,如下图3.双击“自定义变量数据”图标,设置元数据为json,设置类型为String,如下图4.选择“数据”选项,手动设置JSON内容,如下图5.双击JSON input图标,在“文件”选项、“字段”选项中按下图设置原创 2021-09-27 20:31:45 · 2259 阅读 · 0 评论 -
Kettle数据抽取实战之四:网页数据抽取
1.运行Kettle,在菜单栏中单击“文件”选项,在弹出的下拉菜单中选择“新建”-“转换”选项,在打开的界面中选择“输入”-“生成记录”选项,在“查询”中选择“HTTP client”选项,在“输入”中选择“Get data form XML”选项,在“转换”中选择“字段选择”选项,将它们拖拽到中间工作区域,并建立及诶单链接,生成界面如下图2.双击打开“生成记录”对话框,在“名称”列输入“url”,在“类型”列输入“String”,在“值”列输入网址:https://services.odata.org原创 2021-09-27 20:54:34 · 3637 阅读 · 4 评论