数据挖掘平台示例

(一)鸢尾花聚类案例

背景

聚类分析是数据挖掘中常用的算法,本文将通过鸢尾花数据展示聚类算法在本平台中的使用方式。本案例,主要涉及归一化与kmeans聚类两个算法。

数据

鸢尾花数据集(IRIS)是一个经典的数据集。其中有150个样本,我们目标是分成三类,分别是山鸢、变色鸢尾、维基尼亚鸢。数据结构如下:

列名含有类型
sepal_length花萼长度double
sepal_width花萼宽度double
petal_length花瓣长度double
petal_width花瓣宽度double
class花的类别String

数据探索流程

第一步,在数据源节点中拖动鸢尾花数据集,之后在组件中拖入归一化以及kmeans聚类节点。之后将节点用线连接

第二步,点击归一化节点,在右侧选择需要归一化的列,点击1处,之后再选择框中将double类型的数据选择上,点击2处的ok保存。归一化只能处理double类型。

第三步, 在下图1处右键点击归一化节点,在右键菜单中选择2处的执行到此处按钮。开始执行程序。

第4步 ,在步骤3执行成功后,点击kmeans节点。首先进行参数设置,类别个数代表聚类后的类别数,填入数字即可。其他参数根据需要设置或保持默认值

之后点击下图中的1进行字段设置,点击图中数字2选择字段,之后点击数字3保存字段。数字4处是输出的列名,可保持默认。

5 运行整个任务,成功后右键kmeans节点,点击查看数据1即可。结果展示如下

(二)新闻聚类示例

背景

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文通过LDA算法挖掘文章的主题。

数据集结构

列名含意类型
contenttitle文章标题String
content文章内容String
label文章类别String

数据探索流程

第一步 从数据源中拖拽新闻信息表,从组件中拖拽中文分词、停用词过滤、词向量化、Lda节点。按照上图进行连接。

第二步 点击中文分词节点,在右侧栏中选择列,按如下图中数字操作

保存好之后,右键中文分词节点选择运行此节点,直到运行结束

第三步 点击停用词过滤节点,在右侧栏选择列,按下图数字顺序操作

之后右键停用词过滤节点,点击运行该节点

第四步 点击词向量化节点,在右侧栏填写参数,如下图

之后在字段设置中选择字段,安装下图数字填写

之后右键词向量化节点,点击运行该节点

第5步 点击LDA节点,在右侧参数输入栏填入聚类类别数,其他参数可根据需要填写,之后保存。

填完参数后,选择字段设置,进行字段设置,按照下图数字操作即可

第6步,点击任务运行,运行整个任务。任务所有节点运行成功后,可右键LDA,点击查看数据1,查看聚类结果。

转载于:https://my.oschina.net/u/3825598/blog/2243366

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值