由于每天都会产生大量的数据,因此了解大数据的复杂性变得至关重要。如果您打算进入大数据星球,则应该熟悉大数据术语。这些术语将帮助您深入了解大数据世界。因此,让我们从术语大数据本身开始-
由于业务专业人员,项目,从业人员和供应商以不同的方式来理解“大数据”,因此很难准确定义。因此,一般而言,大数据是:
-
大/大数据集(大数据集是指太大而无法在单台计算机上存储或处理的数据集),并且,
-
用于授予大型数据集的计算技术和策略的分类。
A
1. Algorithm (算法)
在计算机科学和数学中,算法是关于如何解决复杂问题以及如何执行数据分析的有效分类规范。它包含多个步骤,可对数据进行操作以解决特定问题。
2. Artificial Intelligence (AI)
人工智能是计算机系统的开发,可以执行通常具有人类智能的任务,例如语音识别,视觉感知,决策和语言翻译等。
3. Automatic Identification and Data Capture (AIDC)
自动识别和数据捕获(AIDC),指的是一种通过计算算法自动识别和收集数据对象,然后将其存储在计算机中的方法。例如,射频识别,条形码,生物识别,光学字符识别,磁条都包括用于识别捕获的数据对象的算法。
4. Avro
Avro是为Hadoop项目开发的数据序列化框架和远程过程调用。它使用JSON定义协议和数据类型,然后以二进制形式序列化数据。Avro同时提供:
-
持久数据的序列化格式
-
Hadoop节点之间以及从客户程序到Hadoop服务之间通信的有线格式。
B
5. Behavioral Analytics
行为分析是业务分析的最新技术,它提供了对客户在电子商务平台,Web /移动应用程序,在线游戏等上的行为的获取。它使营销人员能够在正确的时间向正确的客户提供正确的推荐。
6. Business Intelligence
商业智能是可以分析,管理和交付与业务相关的信息的一组工具和方法。它包括与分析中相同的报告/查询工具和仪表板。BI技术提供业务操作的先前,当前和将来的视图。
7. Big Data Scientist
大数据科学家是一个可以获取结构化和非结构化数据点,并利用其强大的统计,数学和编程技能来组织它们的人。他运用所有分析能力(上下文理解,行业知识和对现有假设的理解)来发现业务发展的隐藏解决方案。
8. Biometrics
生物识别技术是詹姆斯·邦德什(James Bondish)技术与分析技术相结合,可以通过一种或多种身体特征来识别人。例如,生物识别技术用于面部识别,指纹识别,虹膜识别等。
C
9. Cascading
级联是软件抽象层,可为Apache Hadoop和Apache Flink提供更高级别的抽象。它是一个开放源代码框架,可在Apache许可下获得。它用于允许开发人员在基于JVM的语言(例如Java,Clojure,Scala,Rubi等)中轻松快速地执行复杂数据的处理。
10. Call Detail Record (CDR) Analysis 通话明细记录(CDR)分析
CDR包含元数据,即有关电信公司收集的有关电话的数据的数据,例如呼叫的长度和时间。CDR分析为企业提供了有关在何时,何地以及如何进行计费和报告呼叫的确切详细信息。CDR的元数据提供有关以下内容的信息。想系统学习大数据的话,可以加入大数据技术学习扣扣君羊:522189307
-
拨打电话的时间(日期和时间)
-
通话持续了多长时间(以分钟为单位)
-
谁打电话给谁(来源和目的地的联系电话)
-
通话类型(入站,出站或免费电话)
-
通话费用多少(按每分钟费率计算)
11. Cassandra
Cassandra是分布式和开源的NoSQL数据库管理系统。它旨在通过商品服务器管理大量分布式数据,因为它可以提供高可用性的服务而不会出现故障点。它最初是由Facebook开发的,然后在Apache的基础上以键值形式构建。
12. Cell Phone Data 手机数据
手机数据已成为大数据源之一,因为它会生成大量数据,并且其中许多可用于分析应用程序。
13. Cloud Computing 云计算
云计算是必不可少的大数据术语之一。它是一个新的范式计算系统,它提供可视化的计算资源,以运行在用于存储数据的标准远程服务器上,并提供IaaS,PaaS和SaaS。云计算提供IT资源,例如基础架构,软件,平台,数据库,存储等作为服务。它的一些服务包括灵活的扩展,快速的弹性,资源池,按需自助服务。
14. Cluster Analysis 聚类分析
聚类分析是与公共组(集群)中彼此相似的对象分组过程相关的大数据术语。这样做是为了了解它们之间的异同。探索性数据挖掘是一项重要任务,也是在各种领域(例如图像分析,模式识别,机器学习,计算机图形学,数据压缩等