接下来继续了解另外 50 个大数据术语。
Apache 软件基金会(ASF) 提供了许多大数据的开源项目,目前有 350 多个。解释完这些项目需要耗费大量时间,所以我只挑选解释了一些流行术语。
Apache Kafka
命名于捷克作家「卡夫卡」,用于构建实时数据管道和流媒体应用。
它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,「卡夫卡」也非常受欢迎。
大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:957205962 一起讨论进步学习
Apache Mahout
Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
Apache Oozie
在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。
Oozie 为 Pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。
Apache Drill/Impala/Spark SQL
这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。
如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。
Apache Hive
知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Apache Pig
Pig 是在大型分布式数据集上创建、查询、执行例程的平台。
所使用的脚本语言叫做 Pig Latin(绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?
Apache Sqoop
一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。
Apache Storm
一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。
人工智能 AI
为什么 AI 出现在这里?你可能会问,这不是一个单独的领域吗?所有这些技术发展趋势紧密相连,所以我们最好静下心来继续学习,对吧?
AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习。