大数据人都该知道的 75 个专业术语,你一定得看!

接下来继续了解另外 50 个大数据术语。

 

Apache 软件基金会(ASF) 提供了许多大数据的开源项目,目前有 350 多个。解释完这些项目需要耗费大量时间,所以我只挑选解释了一些流行术语。

 

 

Apache Kafka

 

 

命名于捷克作家「卡夫卡」,用于构建实时数据管道和流媒体应用。

 

它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,「卡夫卡」也非常受欢迎。

 

大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:957205962 一起讨论进步学习

Apache Mahout

 

 

Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。

 

 

Apache Oozie

 

在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。 

 

Oozie 为 Pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

 

 

 

Apache Drill/Impala/Spark SQL 

 

这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。

 

如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。

 

 

Apache Hive 

 

知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

 

 

Apache Pig 

 

Pig 是在大型分布式数据集上创建、查询、执行例程的平台。

 

所使用的脚本语言叫做 Pig Latin(绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?

 

 

Apache Sqoop 

 

一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

 

 

Apache Storm 

 

一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

 

 

人工智能 AI 

 

为什么 AI 出现在这里?你可能会问,这不是一个单独的领域吗?所有这些技术发展趋势紧密相连,所以我们最好静下心来继续学习,对吧?

 

AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值