Pentaho 8.2企业版带来了大量的功能和改进,从PDI中的新流媒体和Spark功能到大数据增强和云数据安全。 Pentaho 8.2还通过引入新功能和改进继续改善Pentaho平台体验。
全新的Python Executor Step
Python Executor Step将CPython脚本语言的强大脚本功能和算法整合到您的转换中。这个新的PDI步骤对于希望利用机器学习和深度学习方法,模型管理策略以及与数据科学笔记本集成的数据科学家和数据工程师特别有用。
通过对Pandas dataFrames和NumPy数组的本机支持,Python Executor步骤可以从各种源读取数据,修改和从数据中获取值,然后将输出作为一组PDI字段提供。该步骤具有两种执行脚本的方法:从本地或托管位置运行脚本文件,或手动将脚本嵌入到步骤中。
从PDI访问HCP
您现在可以从PDI的虚拟文件系统(VFS)浏览器访问Hitachi Content Platform(HCP)分布式存储系统。在HCP中,访问控制列表(ACL)授予用户执行各种文件操作的权限。命名空间用于逻辑分组,访问和对象元数据(例如保留和碎化设置)。点击了解有关如何从PDI设置HCP访问权限的详细信息。
流数据改进
Pentaho Data Integration(简称PDI)具有适应自适应执行层(AEL)中的Spark引擎和访问高级消息队列协议(AMQP)流数据的新步骤。
增加PDI中的Spark功能:现在,Spark步骤已定制为使用本机Spark API。 Spark API旨在利用先进的Spark引擎,该引擎专为加快硬件资源的处理和分发而设计。在PDI中了解有关Spark on AEL的更多信息。
PDQ中的AMQP增强功能:高级消息队列协议(AMQP)为在Pentaho中生成或使用实时流数据提供了强大的连