大数据人都该知道的 75 个专业术语，你一定得看！

最新推荐文章于 2023-05-22 14:29:09 发布

数据工程师陈晨

最新推荐文章于 2023-05-22 14:29:09 发布

阅读量1.5k

点赞数

分类专栏：大数据文章标签：大数据人工智能机器学习数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cqacrh2798/article/details/86350202

版权

接下来继续了解另外 50 个大数据术语。

Apache 软件基金会(ASF) 提供了许多大数据的开源项目，目前有 350 多个。解释完这些项目需要耗费大量时间，所以我只挑选解释了一些流行术语。

Apache Kafka

命名于捷克作家「卡夫卡」，用于构建实时数据管道和流媒体应用。

它如此流行的原因在于能够以容错的方式存储、管理和处理数据流，据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理，「卡夫卡」也非常受欢迎。

大数据是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长!大数据学习群：957205962 一起讨论进步学习

Apache Mahout

Mahout 提供了一个用于机器学习和数据挖掘的预制算法库，也可用作创建更多算法的环境。换句话说，机器学习极客的最佳环境。

Apache Oozie

在任何编程环境中，你都需要一些工作流系统通过预定义的方式和定义的依赖关系，安排和运行工作。

Oozie 为 Pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

Apache Drill/Impala/Spark SQL

这三个开源项目都提供快速和交互式的 SQL，如与 Apache Hadoop 数据的交互。

如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS)，这些功能将非常有用。抱歉，这里说的有点奇怪。

Apache Hive

知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

Apache Pig

Pig 是在大型分布式数据集上创建、查询、执行例程的平台。

所使用的脚本语言叫做 Pig Latin(绝对不是瞎说，相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?

Apache Sqoop

一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

Apache Storm

一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

人工智能 AI

为什么 AI 出现在这里？你可能会问，这不是一个单独的领域吗？所有这些技术发展趋势紧密相连，所以我们最好静下心来继续学习，对吧？

AI 以软硬件结合的方式开发智能机器和软件，这种硬件和软件的结合能够感知环境并在需要时采取必要的行动，不断从这些行动中学习。

最低0.47元/天解锁文章

数据工程师陈晨

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据人都该知道的 75 个专业术语，你一定得看！

接下来继续了解另外 50 个大数据术语。 Apache 软件基金会(ASF) 提供了许多大数据的开源项目，目前有 350 多个。解释完这些项目需要耗费大量时间，所以我只挑选解释了一些流行术语。 Apache Kafka 命名于捷克作家「卡夫卡」，用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流，据说还非常「快...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。