大数据领域相关术语总结

13、DQC

DQC是Data Quality Control(数据质量控制)的缩写,是指通过对数据进行各种检测和评估,以确保数据的准确性、完整性、一致性和可靠性的一种管理方法。
DQC在数据管理和数据分析中都是非常重要的一环,它可以帮助企业提高数据的质量和可信度,降低数据风险和成本,提高数据价值和效益。

14、IMEI

IMEI是International Mobile Equipment Identity(国际移动设备身份码)的缩写,是一种全球唯一的标识移动设备的号码。IMEI是由15位数字组成,用于识别移动设备的身份,类似于人类的身份证号码。IMEI通常在移动设备的电池下方、设备背面或者系统设置中可以找到。

15、GAID

GAID是Google Advertising ID(谷歌广告标识符)的缩写,是谷歌公司推出的一种广告标识符,用于识别Android设备上的用户和广告目标。GAID是一个由32个字符组成的字符串,是Android设备上的一个唯一标识符。

16、GUID

GUID是全局唯一标识符(Globally Unique Identifier)的缩写,也被称为UUID(Universally Unique Identifier)。它是一种由数字和字母组成的标识符,用于在计算机系统中标识唯一的对象或实体。GUID通常由算法生成,长度为128位二进制数,可以表示为32个十六进制数,每个数之间用连字符分隔。如{3F2504E0-4F89-11D3-9A0C-0305E82C3301}。这是一个由数字和字母组成的标识符,长度为128位二进制数,可以表示为32个十六进制数,每个数之间用连字符分隔。需要注意的是,GUID是由算法生成的标识符,理论上不会重复,但实际上可能会存在重复的情况。因此,在使用GUID时,需要根据具体情况进行验证和处理。

总之,GUID是一种由数字和字母组成的标识符,用于在计算机系统中标识唯一的对象或实体,具有标识唯一对象、数据库主键、软件开发、安全性等功能。

17、openid

OpenID是一种分布式身份验证协议,可以让用户在不同的网站和应用程序之间共享同一个身份认证信息,从而避免了在每个网站和应用程序上单独注册和登录的繁琐。OpenID的工作原理是:用户在一个OpenID提供商处注册一个OpenID,然后可以使用该OpenID登录到任何支持OpenID的网站和应用程序。比如微信账号可以登录腾讯视频。

18、unionID

UnionID是微信公众平台和微信开放平台提供的一种跨应用、跨公众号的用户唯一标识符。UnionID主要用于解决用户在多个公众号、移动应用程序之间的身份认证和信息共享问题。当用户在多个公众号或移动应用程序中使用同一个微信账号登录时,可以使用UnionID来标识用户的身份。

19、DMP

DMP是一种数据整合和管理平台,用于收集、存储、分析和应用各种数据,包括用户数据、广告数据、社交数据等。DMP标签是DMP中的一个重要组成部分,用于对用户数据进行分类、标记和分析。DMP标签通常包括以下几种类型:行为标签、属性标签、兴趣标签、地理位置标签、设备标签等,DMP标签可以用于对用户进行定位和分析,以便于对用户进行精准的广告投放和营销策略的制定。

20、LLM

LLM是Large Language Model的缩写,意为大型语言模型。LLM大模型是指基于深度学习技术,使用大量数据和强大的计算资源训练出的语言模型。这种模型通常具有上亿甚至数十亿个参数,可以对大量的自然语言文本进行建模和预测,包括自然语言理解、自然语言生成、语言翻译、问答系统等多个领域。

最近几年,LLM大模型在自然语言处理领域取得了重大突破,尤其是在机器翻译、语言模型和文本生成等方面。例如,Google的BERT模型、OpenAI的GPT模型、Facebook的RoBERTa模型等都是目前最为著名的LLM大模型之一,它们使用了大量的训练数据和强大的计算资源,取得了在自然语言处理领域的重大突破。

LLM大模型的出现,不仅为自然语言处理领域带来了新的进展,也为其他领域的研究提供了新的思路和方法。例如,在计算机视觉、音频处理、医疗健康等领域,也可以使用类似的方法,使用大量数据和强大的计算资源来训练大型模型,从而实现更加准确和高效的预测和分析。

21、OOM

OOM 是 Out Of MemoryError 的缩写,意为内存溢出错误。在 Java 中,当应用程序尝试分配的内存超出了 JVM 的内存限制,就会抛出 OutOfMemoryError。
这通常发生在以下几种情况下:

  1. 应用程序在尝试创建新对象时,但是没有足够的内存可用。
  2. 应用程序持续分配内存,但未释放不再需要的对象,导致内存耗尽。

解决 OOM 错误的方法通常包括:

  1. 识别内存泄漏:检查代码,确保不再需要的对象能够被垃圾回收器释放。
  2. 调整 JVM 内存参数:增加堆内存大小或者调整垃圾回收策略。
  3. 优化代码:减少内存消耗,避免不必要的对象创建等。

遇到 OOM 错误时,需要通过分析日志和堆栈跟踪,以及使用内存分析工具(如 VisualVM、JProfiler 等)来识别问题,并作出相应的调整和优化。

22、并发和并行

“并发” 和 “并行” 是计算机科学领域中常用的两个概念,它们描述了程序执行的不同方式。

并发(Concurrent)指的是系统能够同时处理多个任务。这些任务可能在同一时间段内交替执行,但并不一定是同时执行。并发通常用于描述多任务系统中的情况,其中多个任务可以在短时间内交替执行,从宏观上看给人一种同时执行的感觉。

并行(Parallel)指的是系统真正同时执行多个任务。在并行系统中,多个任务在同一时刻内同时执行,每个任务都有自己的处理器核心或者计算资源。并行通常用于描述多核处理器、分布式系统等情况,其中多个任务可以在同一时刻内真正同时运行。

简而言之,“并发” 强调的是多个任务能够在同一时间段内交替执行,而 “并行” 强调的是多个任务能够在同一时刻内真正同时执行。这两个概念在编程和系统设计中都非常重要,对于充分利用计算资源、提高系统性能具有重要意义。

23、微服务

微服务(Microservices)是一种架构风格,它将一个应用程序拆分为一组小型、独立部署的服务,每个服务都围绕着特定的业务功能进行构建。每个微服务都有自己的代码库、数据库和团队,可以独立部署、扩展和更新。微服务架构鼓励松耦合、独立开发、部署和维护,有助于提高系统的灵活性、可维护性和可伸缩性。

微服务架构通常具有以下特点:

  1. 服务拆分:应用程序被拆分为小型的服务单元,每个服务都专注于特定的业务功能。
  2. 独立部署:每个微服务都可以独立部署,不影响其他服务。
  3. 松耦合:微服务之间通过明确定义的接口进行通信,彼此之间是相互独立的。
  4. 技术多样性:每个微服务可以使用适合自己需求的最佳技术栈和工具。
  5. 弹性和可伸缩性:可以根据需求对每个服务进行独立的扩展和缩减。

微服务架构适合于大型、复杂的应用程序,特别是需要频繁变更和快速交付的情况。它使得团队可以更快地开发和交付新功能,同时降低了维护和扩展的复杂性。然而,微服务架构也带来了一些挑战,如分布式系统的复杂性、服务发现、监控和管理等方面的问题。

24、MVCC

MVCC(Multi-Version Concurrency Control,多版本并发控制)是一种数据库管理系统中常用的并发控制方法。它允许数据库系统在读取数据的同时,允许其他事务对数据进行修改,从而提高了数据库系统的并发性能。

MVCC的核心思想是为每个数据行维护多个版本,这样在读取数据时可以读取到一个一致性的快照,而不会被正在进行的写操作所影响。这种方法通常用于实现数据库的隔离级别,如READ COMMITTED和REPEATABLE READ,以及事务的可重复读取。

MVCC的实现通常涉及到为每个数据行保存多个版本的数据,以及维护事务的元数据(如事务ID、版本号等)。这样就可以实现在不加锁的情况下,提供一定程度的并发控制,从而提高数据库系统的性能和并发能力。

MVCC在各种数据库系统中都有广泛的应用,如MySQL、PostgreSQL等。它是一种重要的并发控制技术,对于提高数据库系统的性能和可伸缩性具有重要意义。

25、RPC

RPC 是远程过程调用(Remote Procedure Call)的缩写,它是一种计算机通信协议,用于实现分布式系统中进程间的通信和远程调用。RPC 允许程序调用另一个地址空间(通常是另一台机器上)的过程或函数,就像调用本地的过程一样。

在 RPC 中,客户端应用程序调用远程服务器上的远程过程,而远程过程会执行所需的操作,并将结果返回给客户端。RPC 隐藏了通信细节,使得分布式系统中的远程调用就像本地调用一样简单。

RPC 通常包括以下关键组件:

  1. 客户端:发起远程过程调用的应用程序。
  2. 服务器:提供远程过程的应用程序。
  3. 通信协议:定义客户端和服务器之间通信的协议,如 HTTP、TCP、UDP 等。
  4. 序列化:将数据结构或对象转换为可在网络上传输的格式。
  5. 远程调用接口:定义客户端可以调用的远程过程的接口。

RPC 在分布式系统中有着广泛的应用,如微服务架构、分布式计算、云计算等领域。常见的 RPC 框架包括 Dubbo、gRPC、Apache Thrift 等,它们提供了各种功能,如服务发现、负载均衡、数据序列化等,以简化远程过程调用的开发和管理。

26、短网址服务

短网址服务是指将长URL转换为较短的URL的服务。这种服务通常用于在网络上分享链接,尤其是在社交媒体或其他有字数限制的场合。

短网址服务的工作原理是将长URL映射到一个较短的别名,用户访问这个别名时会被重定向到原始的长URL。这样做的好处是可以节省字符数,提高分享链接的便利性,同时也能够对链接进行跟踪和统计。

27、路径埋点

路径埋点是指在应用程序或网站中设置跟踪用户行为的数据采集点。这些数据采集点通常用于分析用户在应用程序或网站中的行为路径、交互流程和使用习惯。通过路径埋点,可以收集用户在应用程序或网站中的操作步骤、页面浏览顺序、点击行为等信息,以便进行用户行为分析、用户体验优化和产品改进。

路径埋点通常包括以下内容:

  1. 页面浏览:记录用户浏览网站或应用程序页面的顺序和停留时间。
  2. 点击事件:记录用户在页面上的点击行为,包括按钮点击、链接点击等。
  3. 操作步骤:记录用户在应用程序中的操作步骤,比如填写表单、提交信息等。

通过路径埋点收集的数据可以帮助产品团队和运营团队分析用户行为,了解用户在应用程序或网站中的行为习惯和偏好,从而进行产品改进、优化用户体验、提高转化率等工作。同时,路径埋点也为数据分析和用户行为建模提供了重要的原始数据。

28、独立埋点

“独立埋点”通常指的是在数据采集过程中,对特定事件或指标进行单独设置和收集数据的过程。这种方法通常用于针对特定的业务需求或分析目的,独立地收集和分析特定事件或指标的数据。

独立埋点的优点包括:

  1. 精确性:能够准确地收集和分析特定事件或指标的数据,避免了其他无关数据的干扰。
  2. 高度定制化:能够根据具体的业务需求或分析目的,灵活地设置和收集特定事件或指标的数据,更符合特定的分析需求。
  3. 有效性:能够更有效地利用资源,集中精力对特定事件或指标进行深入分析,发现潜在的问题和机会。

在数据分析和业务决策过程中,独立埋点可以帮助团队更加精准地理解用户行为、产品使用情况和业务运营效果,为业务增长和优化提供更可靠的数据支持。

持续更新中!!!!!

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值