knime 大数据_如何将KNIME用于数据科学

本文介绍了KNIME作为一个高度评价的数据分析平台,如何用于数据科学领域。KNIME提供图形化工作流程设计,使得数据分析更加直观易用,支持多种语言和工具的集成,特别适合需要构建模型和工作流程的场景。文章涵盖了KNIME的特点、用途、安装以及通过示例工作流程学习KNIME的方法,适合初学者作为入门教程。
摘要由CSDN通过智能技术生成

knime 大数据

KNIME(K是无声的,因此发音为nīm )是一个高度评价的数据分析平台,具有广泛的适用性,并且与其他产品(例如与数据库,语言,机器学习框架和深度学习框架)进行了许多集成。 KNIME的理念是包容性,并“融合”您要使用的任何软件和数据源。

该平台的探索,模型构建,可视化,报告和开发部分以及社区扩展都是开源的。 提供协作,自动化,管理和部署功能的KNIME Server和合作伙伴扩展都是商业化的。 KNIME Analytics Platform和KNIME Server可用于本地安装以及AWS和Azure云。

[InfoWorld的要点: 用于AI开发的5种最佳编程语言 为什么应该使用Python进行机器学习 Julia与Python的对决:Julia语言在数据科学方面的兴起五个 用于数据科学的 基本Python工具(现已改进)数据科学的Python发行版Anaconda入门 Python的Anaconda发行版中的新增功能 | 通过InfoWorld的App Dev Report新闻通讯了解编程方面的热门话题。 ]

在本教程中,我将专注于开源KNIME Analytics Platform和选定的开源扩展。 我的目标是带您找到一个现有的KNIME工作流程,以用作自己的数据科学工作的起点,并充分了解KNIME工作流程以对其进行自定义。 为了在有限的空间内实现这一目标,我将带您参考KNIME自己的一些材料来填充细节。

为什么要使用KNIME?

如果您希望通过从处理元素(称为节点)以图形方式组装处理管道(称为工作流)来构建模型,请选择KNIME来满足您的分析需求,如下面所示的简单分类器工作流所示。 如果您喜欢编写代码或在电子表格中运行模型,请选择其他工具。

knime平台简单分类器 IDG

KNIME Analytics Platform展示了一个非常简单的,带有注释的工作流程示例。 [ 查看大图 。]

如果您想混合使用各种语言和工具,则KNIME是将它们融合在一起的良好框架。 如果您的组织中有数据科学家可以构建模型和工作流程以供分析师应用,则KNIME也非常适合,尤其是如果您购买了KNIME Server订阅。

拥有图形化工作流程设计器,比起带有模块和框架的编程语言(例如带有Scikit-learn的Python和深度学习框架)的编程语言,使KNIME更易于学习和使用。 但是,我之前所说的关于个人偏爱的内容仍然适用。 简单不一定意味着更好,特别是对于训练有素的程序员和数据科学家而言。

KNIME拥有2,000多个可用节点,具有相当多的功能-比您一次学习所有功能要多得多。 这些节点包括许多领域,例如IO,视图,分析,数据库连接器,结构化数据,脚本,工具和服务,工作流,社交媒体,报告和化学-仅包含基本节点和一些可用扩展。 报告扩展使用开源BIRT包。

KNIME通常使用具有高可靠性和准确性的同类最佳算法,例如R和IBM Modeler。 正如最近的一篇学术论文所讨论的,其他软件包并非总是如此。

尽管KNIME本身是Java应用程序,但其许多扩展使用其他语言。 例如,最好的内置可视化工具使用JavaScript图形库,并且脚本扩展包括R和Python类别。 自KNIME 3.6.1起,一些深度学习扩展仍被归类为KNIME Labs的预览。

KNIME Analytics Platform概述

KNIME分析平台基于Eclipse构建。 从下面的屏幕图像中可以看到,从左上角顺时针方向看,这里有一些窗格,用于浏览本地和远程服务器工作流程,显示和编辑工作流程,显示当前所选节点的描述,显示控制台输出,用于显示当前工作流程的大纲,以及浏览已安装的节点。

knime欢迎屏幕 IDG

KNIME欢迎屏幕,显示用于显示和编辑工作流程以及浏览节点的窗格。

某些常用的Eclipse chrome已被删除,因此您不能轻易迷失于其他插件,但是帮助仍然主要是Eclipse。 虽然在的帮助下底部的KNIME节点,内容比你可以找到关于KNIME的网站,并在实际的平台是什么老。 假设您已连接到Internet,建议您在浏览器中转到KNIME学习中心以获取参考,而不要打开本地帮助。 在使用时,请下载初学者备忘单

KNIME工作流通过将节点的输出和输入端口连接起来以对数据流进行建模,从而将节点绑定在一起。 您可以通过将节点从资源库中拖到工作流窗格并绘制端口之间的连接来创建它们。 工作流本质上是自我记录的,但是您可以通过在工作流窗格中添加注释来进行改进,就像我们在第一个屏幕截图中所做的那样。

节点在数据上执行任务,通常需要在运行之前对其进行配置(双击该节点以显示属性表)。 节点在操作块下方显示交通信号灯以指示其状态:成功运行后,红色表示未配置,黄色表示已配置,绿色。

端口是数据流动的地方。 通常,节点为绿色后双击输出端口将显示数据。 对于图形视图输出端口,双击该端口将显示一个图形窗口。

我推荐的KNIME入门课程的第1章包括一个视频,演示了基本的工作流程操作。

KNIME应用程序

您可以用KNIME做什么? 在哪里适用?

KNIME被用于许多领域,包括客户情报,社交媒体,金融,制造,制药,零售,跨行业和政府。 这不是一个完整的列表,但是KNIME已经记录了每个示例工作流程的示例 ,如下所示。 您可以在KNIME Example Server上找到其他示例工作流程,您可以通过在KNIME Explorer窗格中的Examples下双击来从KNIME Analytics Platform中访问这些工作流程。

知识应用 IDG

KNIME应用领域。

安装KNIME和扩展

此时,建议您在自己的计算机上安装KNIME。 这很简单。 浏览至初步下载页面 ,填写第一页上的表单以注册帮助和更新,然后移至实际下载页面以获取Windows,Linux或MacOS的安装程序。 对于Windows,您有几种选择。 对于Linux和Mac,每个都有一个选择。

我建议您也下载KNIME快速入门指南PDF ,以便您可以在单独的窗口中查看它,而不是依赖可以在工作台中查看的副本。 《快速入门指南》中讨论或显示的某些内容已过时,但不足以使您感到困惑。 例如,安装部分讨论将下载文件解压缩到目录中,但是其中一些可能的下载文件是您需要运行的安装程序,例如MacOS安装程序。

首次运行KNIME时,您会看到一个工作区选择器。 现在使用默认值。 然后,您将看到一个欢迎屏幕,类似于本教程概述部分中的屏幕截图。 在“这里的去向”部分中有一个获取其他节点的选项。 有必要下载所有其他节点,甚至是听起来没有用的节点,理由是所提供的功能和示例即使在节点声称的用途之外也常常具有价值。

如果您不想立即执行此操作,则可以随时使用欢迎工作流程中的链接或使用“文件|添加”来添加节点。 安装KNIME扩展…”菜单项。 两种方法都将调出Eclipse“可用软件”安装程序。

knime添加节点概述 IDG

KNIME节点安装。

我建议您花一些时间浏览平台实例中安装的KNIME节点,并通读《 KNIME Node Guide》 ,以便大致了解可用的内容。 这也是阅读《 KNIME快速入门》指南和《 要做的七件事》页面并逐步执行步骤的好时机。

您将使用KNIME进行的工作是创建工作流程,以导入和清理数据,将数据转换为适合您要拟合的模型的新变量,然后执行模型拟合和评估,最后生成报告。 KNIME拥有您所需的大部分或全部。 如果您需要使用其他软件包或您自己的脚本扩展KNIME以实现您的目标,则应该能够找到有助于将它们绑定到KNIME工作流程中的节点。

KNIME示例工作流程

要做的七件事”页面建议您通过安装在“示例工作流|示例”下的“构建简单分类器”示例进行工作。 基本示例。” 它对标准数据集进行决策树分类。 它以前使用的是虹膜形态数据。 现在,它使用人口统计数据来预测收入。

该示例是一个很好的开始。 我要添加到正式讨论中的唯一一件事是指向工作流工具栏中的双箭头图标,该图标将执行所有节点。 您可能还需要将鼠标悬停在工具栏上的每个图标上,以查看其作用及其键盘快捷键。

knime工作流程工具栏 IDG

KNIME工作流程工具栏。

快捷键通常是面向Windows的功能键,但是您可以通过在按下Shift-F7的同时按fn键(在所有可用节点上执行)来使它们在Mac上可以使用。 如果您想使用在Mac上更方便的组合键,请使用“系统偏好设置| 键盘| 快捷方式| “应用程序快捷方式”窗口,添加KNIME应用程序,然后将您的首选键映射到“节点”菜单项。

要做的七件事”页面还建议您从示例服务器下载工作流。 它提出了一些建议,并举例说明了其中的一个建议:情感分类,该模型通过分析文本来预测IMDB电影评论是正面还是负面。 这是出色的第二步。

使用这两个工作流程,我希望您单击每个节点并阅读说明,该说明将显示在右侧。 我还希望您尝试研究“数据融合”和“简单报告”示例,以了解如何执行ETL并使用KNIME生成报告。

下一步

在这一点上,我建议您花一些时间在KNIME示例工作流程上 。 您可以浏览所有主题,并查看可能感兴趣的元信息。 您还可以搜索感兴趣的特定领域。 与“情感分类”一样,复制要运行和自定义的所有工作流程,然后将其放入本地工作空间。 这是添加一些工作流组以将分析组织到项目中的好时机。

KNIME学习中心是下一个浏览的好地方,因为您可能尚未了解针对不同数据和不同(或更多)算法定制工作流所需的全部知识。 根据您的背景,兴趣和技能水平,您可能需要查看学习中心中的各种用法和应用程序领域。 如果您打算开发自己的节点,那么SDK信息现在位于GitHub上

在各种“学习中心”应用程序选项卡下,有几本书和课程建议。 我看了几本书。 内容很好,尽管KNIME UI的图形特性意味着操作说明需要大量屏幕截图以及有关单击位置的详细说明,这意味着它很容易在杂草中消失。 我还浏览了推荐视频中的六个。 只要您了解演讲者的口音,您就会发现这些演讲很有用。

翻译自: https://www.idginsiderpro.com/article/3316836/how-to-use-knime-for-data-science.html

knime 大数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值