为了解大数据的当前和未来状态,我们采访了来自28个组织的31位IT技术主管。我们问他们,“你在数据提取,分析和报告中使用的最流行的语言,工具和框架是什么?” 以下的文章是他们告诉我们的记录,经过总结如下。
Python,Spark,Kafka
随着大数据和对人工智能AL/机器学习 ML 的推动,Scala和Python语言以及Apache Spark中越来越受欢迎。
对OLAP数据仓库的迁移,如果用 Python开发机器学习使用较少的结构。开发者编写Python ML模型非常方便,Python有扩展库提供支持。
Kafka用于流式提取,R和Python用于编程开发,当然Java很普遍。SQL还不会消失,但它不是大数据最好的朋友,但是它的开放性让更多的人可以访问数据,Gartner让Hadoop上的SQL走出了幻灭之低谷。
我们看到很多数据仓库的相关技术,如Hadoop,Spark和Kafka等新兴技术,很多人还对Redshift,Snowflake和Big Query非常感兴趣。
ML机器学习技术栈,增加了TensorFlow的强大工具让人增加对其学习的信心,减小了学习曲线。
第三个是Kubernetes,也聚集了大量的爱好者,并在逐步扩大用户领域。
还有其他开源工具被广泛使用,例如Spark,R和Python,这就是平台提供与这些开源工具集成的原因。
在大数据工作流程中,可以引入一个新节点用Python,R或Spark开发代码脚本。在执行时,节点将执行代码成为工作流中节点管道的一部分。
在之前一段时间,R语言曾占据主导地位,特别