- 博客(37)
- 收藏
- 关注
原创 YouTube的RL策略
YouTube 在推荐系统等多个领域使用强化学习来优化用户体验和业务指标。其核心的强化学习策略目标通常是最大化用户的长期参与度,例如观看时长、视频交互等。以下是 YouTube 强化学习应用的一些关键要点:1. 状态(State)状态通常包含了与用户、视频和上下文相关的各种特征。2. 动作(Action)动作通常是指推荐给用户的视频集合。在每一个时间步,算法需要从候选视频池中选择一个或多个视频推荐给用户。3. 奖励(Reward)奖励用于衡量推荐动作的好坏。4. 策略优化。
2025-02-10 12:41:54
753
原创 浅谈亚马逊的DRL 模型
在亚马逊的业务场景中,深度强化学习(DRL,Deep Reinforcement Learning)模型被广泛应用于多个领域,下面为你详细介绍相关应用及可能涉及的模型.
2025-02-10 11:35:46
665
原创 浅谈马尔可夫决策(MDP)过程
状态(S):3个状态(s0, s1, s2)动作(A):2个动作(a0, a1)转移概率(P):手动定义奖励(R):状态s2为终止状态,奖励+10,其他转移奖励-1折扣因子(γ):0.9# MDP参数定义states = [0, 1, 2] # 状态:s0, s1, s2actions = [0, 1] # 动作:a0, a1gamma = 0.9 # 折扣因子# 转移概率 P(s'|s,a) 和奖励 R(s,a,s')P = {R = {
2025-02-09 10:54:17
484
原创 浅谈DRN技术在推荐系统的作用及应用场景
深度强化学习(Deep Reinforcement Learning,DRL)与推荐系统的结合催生了深度强化推荐系统(Deep Reinforcement Learning-based Recommendation Systems),其中深度强化网络(Deep Reinforcement Network,DRN)作为核心技术框架,通过动态建模用户与系统的交互过程,显著提升了推荐的长期收益和个性化能力。下面我将从技术原理、核心作用和应用场景三方面进行深度解析。
2025-02-09 10:08:54
616
原创 浅谈模型鲁棒性
是指机器学习模型在面对输入数据扰动、噪声、分布偏移或对抗攻击时,仍能保持稳定性能和准确性的能力。鲁棒性强的模型对数据中的异常值、噪声、环境变化等干扰具有较强的容错能力,不会因输入的小幅变化导致输出结果的剧烈波动。
2025-02-08 11:04:41
864
原创 浅谈混合精度训练
如BERT、GPT-3、Transformer等参数量巨大的模型,混合精度可降低显存占用,使单卡训练更大模型成为可能。自动将部分运算转换为FP16(如矩阵乘),其他运算保持FP32(如softmax),平衡速度与稳定性。如CLIP、ALBEF等融合视觉与文本的模型,混合精度减少多模态数据并行处理的显存消耗。解决FP16梯度值过小(下溢)的问题,通过放大梯度确保更新有效性,缩放因子自动调整。加速生成器和判别器的对抗训练过程,同时避免因FP16精度不足导致的训练不稳定。# 6. 更新权重(自动转为FP32)
2025-02-07 11:23:20
307
原创 浅谈自监督预训练
自监督预训练(Self-Supervised Pre-training)是无需人工标注数据、通过设计自动生成监督信号来训练模型的技术。它通过挖掘数据内在的结构化信息(如上下文关系、时间序列依赖、空间连续性等)构建预训练任务,使模型学习通用表征,最终迁移到下游任务中。以下是其核心原理、技术分类、实现方法及实际应用详解。
2025-02-05 11:35:43
839
原创 TensorRT 原理及核心代码示例
TensorRT 是 NVIDIA 推出的高性能,通过等技术,显著提升模型在 GPU 上的推理速度。以下是其核心原理及代码实现。
2025-02-04 11:21:48
1177
原创 多模态融合技术及应用
多模态融合(Multimodal Fusion)是指将来自不同模态(如文本、图像、音频、视频、传感器数据等)的信息进行整合和协同处理的技术。其核心目标是,广泛应用于自动驾驶、医疗诊断、人机交互等领域。
2025-02-04 10:12:29
835
原创 ZeRO(Zero Redundancy Optimizer) 技术
训练超大模型(如GPT-3)时,!:每个GPU都保存完整的模型、优化器状态、梯度,浪费显存。:梯度同步需要大量数据传输。:消除内存冗余,同时保持计算效率。将模型训练所需的(参数、梯度、优化器状态)到不同GPU上,每个GPU只保留一部分,需要时再通过通信获取。:如Adam中的动量(momentum)、方差(variance)。:反向传播后的梯度。:模型的权重。
2025-02-03 14:04:26
670
原创 浅谈量化感知训练(QAT)
在训练阶段,就提前让模型“体验”被压缩后的效果(模拟低精度计算),这样模型自己会调整参数,尽量适应压缩后的环境。假设你训练了一个神经网络模型(比如人脸识别),效果很好,但模型太大(比如500MB),手机根本跑不动。反向传播时,用**直通估计器(STE)**绕过量化操作的梯度问题(简单理解:假装量化没误差,直接传梯度)。:直接压缩(训练后量化,PTQ)会导致精度暴跌,就像把高清图片压缩成马赛克,关键细节全丢了!:把模型参数(权重)从32位浮点数(FP32,高精度)转成8位整数(INT8,低精度)。
2025-02-03 12:50:29
2040
原创 浅谈知识蒸馏技术
最近爆火的DeepSeek 技术,将知识蒸馏技术运用推到我们面前。今天就简单介绍一下知识蒸馏技术并附上python示例代码。知识蒸馏(Knowledge Distillation)是一种模型压缩技术,它的核心思想是将一个大型的、复杂的教师模型(teacher model)的知识迁移到一个小型的、简单的学生模型(student model)中,从而在保持模型性能的前提下,减少模型的参数数量和计算复杂度。以下是对知识蒸馏使用的算法及技术的深度分析,并附上 Python 示例代码。
2025-02-02 11:42:09
1317
原创 DeepSeek 使用的核心技术预测
最近DeepSeek 这个词算是火遍了整个AI圈,这个影响力迅速超过ChatGPT 的产品,都会使用哪些技术来做支撑呢。我这里简单做了一下梳理,结果不一定会完全准确,但是对这类产品的技术架构有个大概的认识。以下是我对可能涉及的技术架构的梳理,希望大家踊跃参与评论。
2025-02-02 11:08:49
1218
原创 如果你想成为一名自动驾驶领域的算法工程师
每学完一个算法(如Kalman滤波),立刻用代码实现(如用Python滤波跟踪车辆轨迹)。Kaggle竞赛(如目标检测、图像分类)、复现经典论文(如ResNet、YOLO)。:学习技术文档写作、团队协作(Git)、英文文献阅读(应对顶会论文)。《机器学习》(周志华)、《深度学习》(Ian Goodfellow):《微积分》(James Stewart)、《凸优化》(Boyd):目标检测(Faster R-CNN)、语义分割(U-Net)。:PyTorch(灵活研究)、TensorFlow(工业部署)。
2025-02-01 08:55:27
1035
原创 深度学习模型在汽车自动驾驶领域的应用
自动驾驶的深度学习模型需兼顾感知、融合、决策全链路,同时依赖高效的硬件计算和持续的数据迭代。车载计算单元(ECU)本地处理数据,减少对云端的依赖(如紧急避障需毫秒级响应)。:通过神经网络将不同传感器的数据映射到统一坐标系(如BEV),再融合特征。:交叉熵(分类)、Smooth L1(回归)、Dice Loss(分割)。:图像分类、物体检测(车辆、行人、交通标志)、语义分割(道路、车道线)。:融合摄像头、激光雷达(LiDAR)、雷达数据,生成统一的环境感知结果。
2025-02-01 08:19:16
1728
原创 浅谈RTB场景中的动态出价算法
动态出价算法是RTB广告系统的核心,其设计需综合考虑预测模型准确性、实时响应能力、预算约束及多目标权衡。从简单的规则策略到复杂的强化学习,算法选择取决于业务规模、数据丰富度和计算资源。未来趋势将更注重长期价值优化(如用户生命周期价值)、跨渠道协同及隐私保护技术(如联邦学习)。
2025-01-31 09:57:09
1087
原创 浅谈AI的发展对IT行业的影响
技术层:掌握AI工具链(LangChain、MLflow),理解模型局限性(如幻觉问题)。思维层:从“解决问题”转向“定义问题”,利用AI放大创造力。伦理层:建立AI系统的可解释性评估机制,规避算法偏见。AI不是替代IT行业,而是将其推向更高维度的竞争——从“代码实现”升级为“智能设计”。正如Linux之父Linus Torvalds所言:“AI不会取代程序员,但会用AI的程序员会取代不用AI的人。
2025-01-26 10:24:39
888
原创 浅谈基本图算法
今天我们来简单介绍一下图的表示和图的搜索。图的搜索指的是系统化地跟随图中的边来访问图中的每个结点。图搜索算法可以用来发现图的结构。许多的图算法在一开始都会先通过搜索来获得图的结构,其他的一些图算法则是对基本的搜索加以优化。可以说,图的搜索技巧是整个图算法领域的核心。常见的图表示法分别是邻接链表和邻接矩阵。常见算法包括遍历、最短路径、最小生成树等。下面我来介绍几个常见的图算法并附上python 代码示例。
2025-01-26 10:13:09
745
原创 浅谈人群扩展(lookalike)模型
Lookalike主要用于广告或者推荐系统中,找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算,还有一些机器学习模型,比如逻辑回归、随机森林,以及深度学习的模型,比如DNN或者Embedding方法。这里简单介绍一下 Lookalike 人群扩展(相似人群扩展)中常用算法模型的解析,涵盖原理、数学公式、实现步骤、优缺点及适用场景。
2025-01-25 10:42:58
1472
原创 浅谈增益模型
增益模型(Uplift Modeling),也称为增量模型或因果效应模型,是一种用于预测干预措施(如营销活动、产品推荐、价格调整等)对个体行为的因果影响的机器学习方法。其核心目标是识别哪些用户会因为干预而产生正向行为变化(如购买、留存),从而优化资源分配,避免对无响应或可能产生负面反应的群体进行无效干预。
2025-01-24 12:11:00
569
原创 浅谈端上智能在推荐系统中的应用
端上智能(Edge Intelligence)是指将人工智能(AI)能力部署在终端设备上,使终端设备能够在本地进行数据处理、模型推理和决策,而无需频繁依赖云端服务器。传统的 AI 应用通常采用 “云中心” 模式,即终端设备负责收集数据,然后将数据发送到云端服务器进行处理和分析,最后将结果返回给终端。这种模式存在数据传输延迟、隐私安全隐患和网络依赖等问题。端上智能则是将 AI 模型和算法直接部署在终端设备上,让终端设备具备自主的智能处理能力,实现实时、高效、安全的智能应用。
2025-01-23 11:57:24
622
原创 浅谈推荐系统常用技术——强化学习
在推荐系统中,强化学习旨在通过推荐系统(智能体)与用户及其反馈(环境)的交互学习,以最大化长期奖励为目标,动态地做出最优推荐决策。
2025-01-23 11:04:03
697
原创 浅谈隐私计算
隐私计算是指在保护数据本身不对外泄露的前提下,实现数据的计算和分析的一系列信息技术。随着数据成为重要的生产要素,数据的流通与融合需求日益增长,但数据隐私安全问题也愈发突出。隐私计算技术旨在平衡数据的价值挖掘与隐私保护,为数据的安全使用提供解决方案。
2025-01-23 10:34:52
1080
原创 浅谈贪心算法
贪心算法(Greedy Algorithm)是一种在,从而希望导致全局最优解的算法策略。其核心思想是“短视”地追求局部最优,不回溯、不修改已做出的选择。
2025-01-22 11:58:24
462
原创 关于逻辑回归(LR)模型的简单介绍
逻辑回归是一种经典的分类算法,尽管名字中含有 “回归”,但实际上它是一种用于解决二分类问题的线性分类器。其核心思想是使用逻辑函数(通常是 Sigmoid 函数)将线性回归的结果映射到 0 到 1 的范围内,将线性回归的输出转换为概率,以此来表示样本属于某一类别的概率。下面,我将从应用场景,核心代码实现(python)的方式将这块部分展开说明。这里简单介绍一个使用 实现逻辑回归的一个示例,使用梯度下降法训练模型import tensorflow as tfimport numpy as np# 生成一些模拟
2025-01-21 12:50:39
950
原创 关于双塔模型的简单介绍
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构,其核心思想是将用户和物品分别映射到不同的向量空间,通过计算两个向量的相似度来预测用户对物品的偏好或相关性。
2025-01-21 10:08:44
1383
原创 HTTP 请求如何实现跨域
在浏览器的同源策略下,当一个网页的请求发送到不同源(协议、域名、端口不同)的服务器时,会被浏览器阻止,这就是跨域问题。:适用于现代浏览器和现代开发场景,需要服务端配合,对于安全性要求较高的情况更适用,因为可以精确控制允许的源和请求方法等。:适用于开发环境或内部系统,可以避免一些跨域问题,但会增加服务器的负担,而且需要额外的开发和维护工作。总之,在实现跨域时,要根据具体的开发场景、安全需求、请求类型等综合考虑选择合适的方法。请求,适合获取公开数据,对于安全要求不高的场景,由于存在安全隐患,使用时要谨慎。
2025-01-20 12:44:56
843
原创 使用TensorFlow框架来实现内容的个性化推荐
我们每天在看抖音、快手、京东等app时,都会根据算法和数据给我们推荐个性化的商品和内容。使用谷歌的TensorFlow框架就可以实现这里面大部分的底层逻辑。如果对这方面感兴趣,我建议可以按照以下几个方面开始学习。
2025-01-19 17:52:45
421
原创 TensorFlow 框架的应用场景
TensorFlow是一个开源的、功能强大的机器学习框架,主要由Google开发和维护。它为开发者提供了一系列工具和库,用于构建和训练各种机器学习模型,尤其在深度学习领域展现出强大的实力。
2025-01-18 17:42:31
618
原创 简单介绍一个使用Python 代码生成聊天机器人的代码
一个聊天机器人的基本功能包括输入处理、文本处理、意图识别、回复生成、输出回复几个功能。今天介绍一个简单的Python聊天机器人的架构及核心代码示例,使用。(自然语言工具包)进行基本的文本处理,以及简单的预定义规则来生成回复。:paramuser_input:预处理后的用户输入。:paramtext:用户输入的原始文本。:paramintent:用户意图。:return:处理后的文本列表。此函数用于预处理用户输入的文本。:return:回复的文本。:return:用户意图。
2025-01-18 17:27:35
437
原创 学习Python的一些在线资源推荐
任何一门开发语言的学习都需要理论和实践结合起来,有时间的小伙伴可以通过在线课程、官方文档、开源项目来夯实基础。
2025-01-15 09:48:30
1332
原创 推荐几本适合初学者学习python的书籍
学习任何一门开发语言,都需要打下良好的理论基础。对于初学者来说,有几本比较通俗易懂的书籍可以推荐给大家来学习。
2025-01-15 09:43:48
696
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人