TikTok背后的AI如何运作

从工程师的角度探索TikTok推荐系统架构。

TikTok是一款视频共享应用程序,可让用户创建和共享短视频。它以个性化的“just for you”的推荐给用户留下了深刻的印象。它在Z世代中非常受欢迎,容易让人上瘾。在它的背后,它是由人工智能技术驱动的。
在这里插入图片描述

TikTok架构

TikTok推荐系统的架构包括三个组件:大数据框架、机器学习和微服务架构。
大数据框架是系统的起点。它提供实时数据流处理,数据计算和数据存储;
机器学习是推荐系统的大脑。使用一系列机器学习和深度学习算法与技术用于构建模型并生成适用于个人偏好的建议;
微服务架构是底层的基础设施,使整个系统快速高效地提供服务。

大数据框架

没有数据,就没有情报。
分析的大多数数据来自用户的智能手机。这包括操作系统和已安装的应用程序等。更重要的是,TikTok特别关注用户的活动日志,例如观看时间,滑动,喜欢,分享和评论。
在这里插入图片描述
日志数据通过flume和scribe收集和汇总。它们通过管道进入Kafka 队列。然后,Apache Storm使用Apache Hadoop生态系统中的其他组件实时处理数据流。
Apache Hadoop生态系统是一个用于数据处理和存储的分布式系统,这包括第一代分布式数据处理系统MapReduce。它与批处理并行处理数据。YARN 是用于作业调度和群集资源管理的框架。HDFS 是一个分布式文件系统。HBase 是一个可扩展的分布式数据库,支持大型表的结构化数据存储。Hive 是提供数据汇总和查询的数据仓库基础结构。 Zookeeper是一项高性能的协调服务。
随着数据量的快速增长,实时数据处理框架也随之出现。Apache Spark是第三代框架,有助于对大数据工作负载进行近乎实时的分布式处理。Spark通过在内存中处理来增强MapReduce的性能。在过去的几年里,TikTok应用了第四代框架Flink。它旨在本机执行实时流式处理。
数据库系统包括MySQL,MongoDB和许多其他系统。

机器学习

这是TikTok如何赢得个性化,且令人上瘾的算法家喻户晓的名字的中心。
在这里插入图片描述
在大量数据集涌入后,接下来是内容分析、用户分析和上下文分析。神经网络深度学习框架(如TensorFlow)用于执行计算机视觉和本地语言处理(NLP)。计算机视觉将使用照片和视频解释图像。NLP包括分类、标记和评估。
使用经典的机器学习算法,包括逻辑回归(LR),卷积神经网络(CNN),递归神经网络(RNN)和梯度提升决策树(GBDT)。它应用了常见的推荐方法,例如基于内容的过滤 (CBF)、协同过滤 (CF) 和更高级的矩阵分解 (MF)。
TikTok用来读你心思的秘密武器是:

  1. 算法实验平台:工程师对LR和DNN等多种机器学习算法的混合进行实验,然后运行测试(A / B测试)并进行调整。
  2. 广泛的分类和标签:这些模型基于用户的参与度,例如观看时间,滑动以及常用的喜欢或分享(你潜意识反映所做的事比你所说的更能说明你)。用户特征、向量和类别的数量超过了世界上大多数推荐系统,而且它们还在不断增加。
  3. 用户反馈引擎:在多次迭代中检索用户反馈后,更新模型。体验管理平台基于此引擎构建,最终改进了条件和建议。

为了解决建议中的冷启动问题,使用了召回策略。它是从数千万个已被证明受欢迎且高质量的视频中选择数千名候选人。
与此同时,一些人工智能工作已经转移到客户端,以实现超快速的响应。这包括在设备上完成的实时训练、建模和推理。TensorFlow Lite或ByteNN等机器学习框架用于客户端。

微服务架构

TikTok已经运用了云原生基础设施。推荐组件(如用户分析、预测、冷启动、召回和用户反馈引擎)用作 API。这些服务托管在Amazon AWS和Microsoft Azure等云中。作为系统的结果,视频策展将通过云推送给用户。
在这里插入图片描述
TikTok采用基于Kubernetes的容器化技术。Kubernetes 被称为容器编排器。它是自动化应用程序生命周期的工具集。Kubeflow致力于在Kubernetes上部署机器学习工作流。
作为云原生堆栈的一部分,Service mesh 是另一个处理服务到服务通信的工具。它控制应用程序的不同部分如何相互共享数据。它在平台层插入功能或服务,而不是在应用程序层插入。
由于高并发性的要求,服务是使用 Go 语言和 gRPC 构建的。在TikTok中,Go因其良好的内置网络和并发支持而成为服务开发中的主导语言。gRPC 是一个远程过程控制框架,用于有效地构建和连接服务。
Tiktok的成功在于,它将加倍努力提供最佳的用户体验。他们构建内部工具,以最大限度地提高低级别(系统级别)的性能。例如,ByteMesh是Service Mesh的改进版本,KiteX是高性能的Golang gRPC框架,Sonic是增强的Golang JSON库。其他内部工具或系统包括参数服务器、ByteNN 和 abase等。
正如TikTok机器学习负责人Xiang Liang所说,有时下面的基础设施比上面的(机器学习)算法更重要。

基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip 个人大四的毕业设计、课程设计、作业、经导师指导并认可通过的高分设计项目,评审平均分达96.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 [资源说明] 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设或者课设、作业,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96.5分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),供学习参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值