51个你需要知道的大数据术语

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。

你认为我们还应该添加哪些术语?请在评论中告诉我们。

A

  • 算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。

  • Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。

  • Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。

  • Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。

  • Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。

  • Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。

  • 人工智能:机器做出决策、执行模拟人类智力和行为任务的能力。

B

  • 大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。

  • Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。

  • 商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。

C

  • 集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。

  • 约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。

D

  • 数据工程:收集、存储、处理数据,以便数据科学家查询。

  • 数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。

  • 数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。

  • 数据整合:组合不同来源数据并为用户提供统一视图的过程。

  • 数据湖:一种以原始格式保存原始数据的存储库。

  • 数据挖掘:通过检查和分析大型数据库来生成新信息的做法。

  • 数据实现:将变量严格定义为可衡量因素的过程。

  • 数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。

  • 数据处理:机器检索、变换、分析或分类信息的过程。

  • 数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。

  • 数据沼泽:没有适当治理的数据湖就会变成数据沼泽。

  • 数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。

  • 数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。

  • 设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。

G

  • GPU加速数据库:摄取流数据所需的数据库。

  • 图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。

H

  • Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。

I

  • 摄取:从任意数量不同的来源中摄取流数据。

M

  • MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。

  • Munging:将数据从原始格式手动转换或映射到便于使用的格式。

N

  • 正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。

  • 规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。

P

  • 解析:将数据(如字符串)分割成更小的部分进行分析。

  • 持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。

  • Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。

R

  • R:一种主要用于数据可视化和预测分析的开源语言。

  • 实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。

  • 关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。

  • 弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。

S

  • 碎片:数据库的单独分区。

  • 智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。

  • 流处理:数据的实时处理。数据被连续、并发和记录处理。

  • 结构化数据:具有高度组织的信息。

T

  • 分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。

  • 遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。

  • 转换:将数据从一种格式转换为另一种格式。

U

  • 非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。

V

  • 可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。

Z

  • 区域:数据湖中的特定区域,服务于特定目的。

原文:51 Big Data Terms You Need to Know
作者:Sarah Davis
译者:牟云飞


数据为上,方得始终。更多精彩,欢迎关注CSDN大数据公众号!

图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一个字形容大数据:“海”。 关于大数据,以下是75个专业术语: 1. 数据仓库(Data Warehouse) 2. 数据集成(Data Integration) 3. 数据挖掘(Data Mining) 4. 数据采集(Data Collection) 5. 数据分析(Data Analysis) 6. 数据可视化(Data Visualization) 7. 数据模型(Data Model) 8. 数据管理(Data Management) 9. 数据清洗(Data Cleaning) 10. 数据预处理(Data Preprocessing) 11. 数据标准化(Data Standardization) 12. 数据转换(Data Transformation) 13. 数据存储(Data Storage) 14. 数据备份(Data Backup) 15. 数据恢复(Data Recovery) 16. 数据安全(Data Security) 17. 数据质量(Data Quality) 18. 数据质量管理(Data Quality Management) 19. 数据挖掘算法(Data Mining Algorithm) 20. 数据挖掘模型(Data Mining Model) 21. 数据挖掘工具(Data Mining Tool) 22. 数据挖掘技术(Data Mining Technique) 23. 数据挖掘应用(Data Mining Application) 24. 数据挖掘过程(Data Mining Process) 25. 数据挖掘任务(Data Mining Task) 26. 数据挖掘目标(Data Mining Objective) 27. 数据挖掘结果(Data Mining Result) 28. 数据科学(Data Science) 29. 数据科学家(Data Scientist) 30. 数据分析师(Data Analyst) 31. 数据工程师(Data Engineer) 32. 数据架构师(Data Architect) 33. 数据可视化工具(Data Visualization Tool) 34. 数据可视化技术(Data Visualization Technique) 35. 数据可视化图表(Data Visualization Chart) 36. 数据可视化应用(Data Visualization Application) 37. 数据可视化过程(Data Visualization Process) 38. 数据可视化效果(Data Visualization Effect) 39. 数据可视化设计(Data Visualization Design) 40. 数据可视化模型(Data Visualization Model) 41. 数据可视化分析(Data Visualization Analysis) 42. 数据可视化工具包(Data Visualization Toolkit) 43. 数据可视化库(Data Visualization Library) 44. 大数据(Big Data) 45. 大数据处理(Big Data Processing) 46. 大数据分析(Big Data Analysis) 47. 大数据架构(Big Data Architecture) 48. 大数据存储(Big Data Storage) 49. 大数据计算(Big Data Computing) 50. 大数据挖掘(Big Data Mining) 51. 大数据可视化(Big Data Visualization) 52. 大数据工具(Big Data Tool) 53. 大数据技术(Big Data Technique) 54. 大数据应用(Big Data Application) 55. 云计算(Cloud Computing) 56. 云计算架构(Cloud Computing Architecture) 57. 云计算平台(Cloud Computing Platform) 58. 云计算服务(Cloud Computing Service) 59. 云计算模型(Cloud Computing Model) 60. 云计算应用(Cloud Computing Application) 61. 机器学习(Machine Learning) 62. 机器学习算法(Machine Learning Algorithm) 63. 机器学习模型(Machine Learning Model) 64. 机器学习技术(Machine Learning Technique) 65. 机器学习应用(Machine Learning Application) 66. 人工智能(Artificial Intelligence) 67. 深度学习(Deep Learning) 68. 深度学习算法(Deep Learning Algorithm) 69. 深度学习模型(Deep Learning Model) 70. 深度学习技术(Deep Learning Technique) 71. 深度学习应用(Deep Learning Application) 72. 自然语言处理(Natural Language Processing) 73. 自然语言处理算法(Natural Language Processing Algorithm) 74. 自然语言处理模型(Natural Language Processing Model) 75. 自然语言处理应用(Natural Language Processing Application)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值