一、KNIME简介
1.历史发展
KNIME的发展始于2004年1月,由康斯坦茨大学的软件工程师团队作为专有产品。由Michael Berthold领导的原始开发团队来自硅谷的一家公司,为制药行业提供软件。最初的目标是创建一个模块化,高度可扩展和开放的数据处理平台,从而轻松集成不同的数据加载,处理,转换,分析和可视化探索模块,而不必关注任何特定的应用领域。该平台旨在成为一个协作和研究平台,也应作为各种其他数据分析项目的集成平台。
2.核心架构
KNIME允许用户直观地创建数据流(或管道),有选择地执行一些或所有分析步骤,然后检查结果,模型和交互式视图。KNIME是用Java编写的,并且基于Eclipse,并利用其扩展机制来添加提供附加功能的插件。核心版本已经包含数百个数据集成模块(文件I / O,支持所有通用JDBC的通用数据库管理系统的数据库节点),数据转换(过滤器,转换器,组合器)以及常用的数据分析和可视化方法。使用免费的Report Designer扩展,KNIME工作流可用作数据集,以创建可导出为doc,ppt,xls,pdf等文档格式的报告模板。
KNIME的其他功能有:
KNIME核心架构允许处理仅受可用硬盘空间限制的大数据量(大多数其他开源数据分析工具在主存储器中工作,因此仅限于可用RAM)。例如KNIME可以分析3亿个客户地址,2000万个细胞图像和1000万个分子结构。
额外的插件允许整合文本挖掘,图像挖掘以及时间序列分析的方法。
KNIME集成了各种其他的开源项目,例如从机器学习算法的Weka,统计包R项目,以及LIBSVM,JFreeCha