自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 收藏
  • 关注

原创 依存句法分析|Dependency Parsing

本文介绍了自然语言处理中两种主流句法分析方法:成分句法分析和依存句法分析。成分句法分析通过嵌套结构组织词语,而依存句法分析则直接描述词间二元关系。文章详细阐述了依存句法的形式化定义、约束条件和关系类型标注,并探讨了如何利用依存结构消除句法歧义(如介词短语附件歧义和协调范围歧义)以及提取语义信息。最后介绍了从传统转移算法到神经网络解析器的技术演进,以及评价解析器的UAS和LAS指标。文章来自作者博客rn.berlinlian.cn,基于斯坦福CS224N课程内容编写。

2026-01-29 11:55:27 619

原创 计算图与反向传播|Computational Graph and Backpropagation

本文介绍了深度学习中的计算图概念及其在反向传播中的应用。计算图通过节点和边将数学运算可视化,其中前向传播计算输出结果,反向传播则通过局部梯度和链式法则传递梯度。文章通过具体数值案例展示了梯度计算过程,并强调统一反向传播的高效性。最后指出现代深度学习框架通过自动微分简化了开发,同时建议使用数值梯度检查验证自定义算子实现。更多计算机知识可访问博客网站rn.berlinlian.cn。

2026-01-27 10:41:24 851

原创 神经网络计算基础与矩阵求导|The Foundation of Neural Network Computation and Matrix Derivatives

本文揭示了神经网络本质上是并行逻辑回归的层级组合,通过矩阵化前向传播和非线性激活实现数据的重表示。文章以NER任务为例,展示了从词向量到预测概率的数据流向,并解析了反向传播中的雅可比矩阵和维度对齐等关键技术。核心观点包括:神经网络通过层级堆叠实现非线性特征学习;矩阵运算简化了深层网络的计算;非线性激活函数避免了线性坍缩;工程实现需严格遵循维度对齐规则。这些数学原理为理解现代深度学习框架提供了理论基础。

2026-01-22 19:01:10 768

原创 解构语义:从词向量到神经分类|Decoding Semantics: Word Vectors and Neural Classification

本文探讨了NLP分类任务的核心挑战与解决方案。文章首先分析语言的离散符号特性与连续语义之间的矛盾,介绍了从独热编码到分布式表示的演进过程。针对多义词处理难题,提出了线性叠加假说和多原型模型两种解决方案。随后详细阐述了从逻辑回归到深层感知器的分类器演进,包括神经单元、多层架构和目标函数的设计原理。最后以命名实体识别(NER)任务为例,展示了深度神经网络如何通过上下文窗口和特征拼接解决多义性问题。文章指出深度学习的本质优势在于实现了表示学习与分类学习的同步优化,为NLP任务提供了更强大的解决方案。

2026-01-11 16:18:11 878

原创 词向量——从 Word2vec 到 GloVe 的演进之路|Word Embeddings: The Evolution from Word2vec to GloVe

摘要:本文系统介绍了词向量技术的发展历程与核心算法。首先指出传统one-hot编码无法表达语义关系的缺陷,引出分布式语义假设和词向量空间概念。重点解析了Word2vec算法,包括其Skip-gram模型、softmax概率计算、负采样优化等关键技术。同时对比了共现矩阵方法和GloVe模型的优势,最后讨论了词向量评估标准及其局限性。全文通过数学公式和算法流程图,深入浅出地展现了词向量如何实现语义表示,为自然语言处理奠定了重要基础。

2026-01-10 12:56:02 624

原创 词向量 —— 从 WordNet 到 Word2Vec 的演进|Word Embeddings —— The Evolution from WordNet to Word2Vec

本文探讨了计算机如何理解语言"意义"的问题。首先分析了传统方法WordNet和独热编码的局限性,指出其无法有效处理语义关联和新词。随后重点介绍了分布式语义理论和Word2Vec模型,通过预测上下文词来学习词向量表示。文章详细解析了Skip-gram模型的架构设计、数学原理和优化过程,展示了词向量在语义空间中的聚类特性。最后指出了静态词向量的局限性,并简要提及BERT等动态词向量技术的优势。文章内容源自斯坦福大学CS224N课程,更多计算机知识可访问作者博客网站rn.berlinlian.

2026-01-07 18:41:39 975

原创 Measure of Impurity: GINI|杂质度量:基尼系数

本文详细介绍了基尼指数(Gini Index)在决策树算法中的应用。基尼指数用于衡量节点的"混乱程度",取值0-1,值越小表示节点越纯净。文章阐述了二分类和多分类问题下的基尼指数计算方法,以及针对不同属性类型(二元、离散、连续)的分裂策略。通过具体实例演示了如何计算整体数据集和各属性的基尼指数,并选择最优划分属性构建决策树。文中还提供了高效计算连续属性分裂点的方法。更多计算机相关知识可访问博客网站rn.berlinlian.cn。

2025-11-29 15:07:16 1020

原创 Classification: Basic Concepts and Techniques|分类:基本概念与技术

本文系统介绍了分类任务的基本概念与方法。首先区分了有监督学习和无监督学习,阐述了分类的定义与常见应用场景。然后详细讲解了分类模型构建的完整流程,包括数据收集、预处理、模型选择、训练评估和部署等关键步骤。重点介绍了决策树算法,涵盖Hunt算法、测试条件设计(针对名义、有序和连续属性)、最优划分确定(基尼指数、信息熵等指标)等内容。文章还对比了基础分类器和集成分类器的特点,通过具体示例展示了决策树从训练到预测的全过程。更多计算机相关文章可访问作者博客网站rn.berlinlian.cn。

2025-11-26 13:29:24 741

原创 Data Preprocessing|数据预处理

在机器学习或数据挖掘中,我们常听到一句话:“数据质量决定模型上限”。这句话背后的核心,其实就是数据预处理(Data Preprocessing)。在真正建模之前,我们拿到的数据往往是杂乱的、不完整的、有噪声的,如果直接丢给模型训练,得到的结果通常不稳定、误差大,甚至完全没有参考价值。所以,在课程中,数据预处理被称为机器学习流程中最容易被忽略、但最重要的一步。1.1 数据预处理是什么?从课程角度来看,数据预处理是指:在对数据进行建模和分析之前,对原始数据进行整理、转换和优化的一系列操作,目的是

2025-11-25 14:14:22 1008

原创 Mutual Information|互信息

在信息论中,熵(Entropy) 是一个核心概念,它描述了系统中不确定性的程度。通过计算熵,我们可以衡量一个随机变量在平均意义上包含了多少信息量。换句话说,熵越高,代表系统越混乱、越不可预测。然而,熵只能反映单个随机变量的特性。在现实世界中,我们更关心的是两个变量之间的关系。例如,一个学生的考试成绩是否与他平时的出勤率相关?股票价格是否受到市场情绪的影响?这些问题都超越了单个变量的范围。

2025-11-24 12:58:14 640

原创 Understanding and Calculation of Entropy|熵的理解与计算

在信息论中,熵(Entropy)用来衡量一个随机变量的不确定性大小。简单理解:一个系统越“混乱”、越难预测,它的熵就越大;一个系统越“有序”、结果越确定,它的熵就越小。比如:如果抛一枚均匀的硬币,正反两面出现的概率各是 0.5,这时结果很难预测,熵比较大。如果这枚硬币被动过手脚,抛出去几乎每次都是正面,那么结果几乎确定,熵就非常小,甚至接近 0。从本质上看,熵描述的是:平均需要多少比特的信息,才能描述一个事件的结果。

2025-11-23 16:32:28 1286

原创 Correlation vs Cosine vs Euclidean Distance|相关性vs余弦相似度vs欧氏距离

本文系统比较了数据分析中三种常用的相似度度量方法:Pearson相关系数、余弦相似度和欧氏距离。相关系数关注变量的线性趋势变化,对缩放和平移不敏感;余弦相似度衡量向量方向一致性,适用于文本分析等场景;欧氏距离计算绝对数值差异,对缩放平移敏感。文章通过具体案例展示了三种方法在不同变换下的表现差异,并提供了应用场景选择指南:文本相似度推荐余弦相似度,温度时间序列分析适用相关系数,绝对温度比较适合欧氏距离。理解这些方法的本质区别有助于在实际问题中选择合适的度量工具。更多计算机相关内容可访问作者博客网站rn.ber

2025-11-21 14:26:43 875 1

原创 Correlation|相关性

摘要:本文深入探讨了数据分析中的核心概念——相关性。首先介绍了相关性的基本定义及其在商业和科研中的应用价值。重点讲解了皮尔逊相关系数的数学原理,包括协方差和标准差的计算方法,并通过可视化图表展示不同强度的正相关、负相关和无相关关系。文章特别强调相关性的局限性:不意味着因果关系、仅反映线性关系、可能出现偶然相关等。最后提醒读者谨慎解读相关性结果,避免得出错误结论。更多计算机知识请访问作者博客网站rn.berlinlian.cn。

2025-11-20 13:02:30 1151

原创 Types of data sets|数据集的类型

文章摘要:本文系统介绍了三种核心数据类型:记录型数据(Record Data)、图数据(Graph Data)和有序数据(Ordered Data)。记录型数据以表格形式组织,包括数值型Data Matrix、文本型Document Data等变体;图数据通过节点和边表示网络关系,适用于社交网络分析等领域;有序数据强调顺序意义,涵盖时间序列、购物行为序列和时空数据等类型。文章详细解析了每类数据的特点、应用场景及分析方法,为数据处理和分析实践提供了分类基础。访问作者博客rn.berlinlian.cn可获取更

2025-11-18 14:06:11 1034

原创 Important Characteristics of Data|数据的重要特征

本文系统介绍了数据挖掘中的四个关键特征:维度性、稀疏性、分辨率与数据规模。维度性影响计算复杂度与可视化难度;稀疏性要求关注非零信息而非缺失值;分辨率决定数据细节程度,需根据分析目标选择合适粒度;数据规模则直接影响存储与计算需求。理解这些特征对选择分析方法、预处理策略及计算框架至关重要。更多计算机相关知识请访问博客rn.berlinlian.cn。

2025-11-17 11:25:24 820

原创 Types of Attributes|属性类型

本文介绍了数据挖掘与机器学习中的四种属性类型及其数学性质。名义属性(Nominal)仅能判断相等性(如颜色),有序属性(Ordinal)可排序但差值无意义(如满意度等级),区间属性(Interval)允许加减运算但无真实零点(如温度℃),比率属性(Ratio)支持所有数学运算(如重量kg)。不同属性类型决定了适用的分析方法,如k-means算法无法处理名义属性。文章通过具体示例阐明了各类属性的特征与应用限制。更多技术内容见作者博客rn.berlinlian.cn。

2025-11-13 12:57:30 890

原创 Clustering vs Classification|聚类vs分类

摘要:本文对比了机器学习中的分类(Classification)与聚类(Clustering)技术。分类属于有监督学习,依赖已标注数据建立特征与标签的映射关系,用于预测新样本类别(如垃圾邮件识别、医疗诊断)。聚类则是无监督学习,通过数据相似性自动发现潜在结构(如客户分群、主题发现)。两者在学习方式(监督vs无监督)、目标(预测vs探索)和应用场景上存在根本差异。文章还展示了它们的工作机制和实际应用案例,强调二者相辅相成,共同构成机器学习的重要分析框架。更多计算机知识欢迎访问博客网站rn.berlinlian

2025-11-11 14:10:59 769

原创 Regression vs. Classification|回归vs分类

本文系统介绍了机器学习中回归与分类两类核心任务的区别。回归用于预测连续值(如房价、温度),分类用于预测离散类别(如垃圾邮件识别)。文章从定义、实例、应用场景和模型方法等方面对比了两者差异:回归拟合数值关系,分类划分决策边界;分别采用MSE/MAE和准确率/召回率等评估指标。典型回归模型包括线性回归、神经网络回归,分类模型则包含逻辑回归、决策树等。尽管目标不同,两者都通过学习输入输出映射关系实现预测,且在实际应用中常需配合使用。文章强调理解这一区别是掌握监督学习的基础。更多计算机知识可访问博客网站rn.ber

2025-11-10 11:01:34 875

原创 Data Mining Tasks|数据挖掘任务

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!数据挖掘(Data Mining)是现代数据分析的重要组成部分,它的核心目标是从大量数据中提取潜在的、有用的知识与规律。随着大数据与人工智能的发展,数据挖掘已成为企业决策、科学研究与社会治理的重要支撑技术。从广义上看,数据挖掘是一种将数据转化为信息、再将信息转化为知识的过程。它不仅关注结果预测,也关注模式发现;

2025-11-09 15:56:05 1579

原创 Similarity and Dissimilarity Measures|相似性和不相似性度量

本文介绍了数据挖掘和机器学习中相似性与不相似性度量的概念和应用。相似性度量用于量化数据对象间的相似程度,常见方法包括余弦相似度和Jaccard系数;不相似性度量则反映差异程度,如欧氏距离和曼哈顿距离。二者可相互转换,并在聚类、推荐系统、图像识别等领域发挥关键作用。理解这些度量方法对于数据分析算法的实现和效果至关重要。更多计算机知识可访问博客网站rn.berlinlian.cn。

2025-11-08 17:37:08 1218

原创 Mahalanobis Distance|马氏距离

摘要:马氏距离是一种考虑变量相关性的距离度量方法,通过协方差矩阵对数据进行标准化,能更准确地衡量多维数据的差异。与欧氏距离相比,马氏距离能自动调整特征权重,消除冗余信息,其几何意义表现为根据数据分布形成的椭圆等距线。文章详细介绍了马氏距离的数学定义、计算步骤和几何解释,并阐述了其在异常检测、模式识别、聚类分析等领域的应用价值。该距离度量方法特别适用于存在特征相关性或不同尺度的高维数据分析场景。

2025-11-06 10:58:12 847

原创 Manhattan Distance|曼哈顿距离

在数学上,曼哈顿距离定义为两个点在各个坐标轴上的绝对差值之和。如果我们有两个 n 维空间中的点 i=(xi1,xi2,...,xin) 和 j=(xj1,xj2,...,xjn),那么它们之间的曼哈顿距离定义如下:这意味着,曼哈顿距离并不计算“直线距离”,而是逐维度地对比两个点在各个坐标上的差异,然后将这些差值的绝对值相加。换句话说,它衡量的是两点之间沿着坐标轴方向“走多少步”才能相互到达。

2025-11-05 11:28:53 713

原创 Similarity Between Binary Vectors|二元向量的相似性

本文对比了衡量二元向量相似度的两种方法:简单匹配系数(SMC)和杰卡德系数。SMC同时考虑"都为1"和"都为0"的匹配情况,适用于特征分布均衡的场景;而杰卡德系数仅关注"共同为1"的特征,更适合稀疏数据分析和共现特征计算。通过实际案例演示了两种方法的计算过程,并指出SMC强调整体一致性,杰卡德更关注有效交集。文章建议根据数据类型选择合适方法:均衡分布用SMC,稀疏数据用杰卡德。更多计算机知识欢迎访问作者博客rn.berlinlian.cn。

2025-11-04 22:09:30 704

原创 Cosine Similarity|余弦相似度

本文介绍了余弦相似度在数据分析和机器学习中的重要性。相比距离度量方法,余弦相似度通过计算向量夹角的余弦值来衡量方向一致性,有效解决了高维数据中长度差异带来的影响。文章详细阐述了其数学定义、取值范围和几何意义,并通过实例演示计算过程。余弦相似度广泛应用于文本分析、推荐系统、图像识别等领域,特别适合处理稀疏高维数据。未来在深度学习和嵌入表示中,余弦相似度仍将发挥重要作用。更多技术文章请访问作者博客rn.berlinlian.cn。

2025-11-03 11:18:01 825

原创 Minkowski Distance|闵可夫斯基距离

本文介绍了机器学习中常用的距离度量方法,重点阐述了闵可夫斯基距离(Minkowski Distance)作为广义距离度量的普适性。通过调整参数r,它可以退化为多种常见距离:r=1时为曼哈顿距离(适用于离散数据),r=2时为欧氏距离(适合连续空间),r→∞时为切比雪夫距离(强调最大偏差)。文章通过具体计算示例展示了不同r值下的距离差异,并分析了它们在聚类、分类等任务中的应用场景。欢迎访问博客网站rn.berlinlian.cn获取更多计算机相关知识。

2025-11-02 12:03:09 2289

原创 Euclidean Distance|欧式距离

本文介绍了欧式距离(Euclidean Distance)的概念与应用。欧式距离是衡量n维空间中两点"直线距离"的常见方法,源于勾股定理推广。文章通过几何直观解释了二维和三维空间的欧氏距离计算,并给出实例展示其在数据分析中的应用。文中还讨论了实际应用中的注意事项,包括标准化处理、高维数据挑战以及典型应用场景如KNN算法、K-Means聚类和异常检测等。欢迎访问作者博客rn.berlinlian.cn获取更多计算机相关知识。

2025-11-01 15:09:57 864

原创 Algorithm refinement: Mini-batch and Soft Update|算法改进:小批量和软更新

本文对比了全量学习(Batch Learning)与小批量学习(Mini-batch Learning)的差异,指出小批量方法通过随机采样部分数据,在加速训练的同时引入噪声,有助于模型跳出局部最优。文章还探讨了强化学习中的Replay Buffer机制,它通过存储和随机采样经验数据来减少相关性。最后介绍了Soft Update方法,通过渐进式参数更新提高训练稳定性。这些技术共同优化了模型训练效率与稳定性。更多计算机知识详见作者博客rn.berlinlian.cn。

2025-10-31 13:48:03 1009

原创 Algorithm Refinement: ε-Greedy Policy|算法改进:ε-贪婪策略

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!

2025-10-30 21:43:17 1028

原创 Algorithm Refinement: Improved Neural Network Architecture|算法改进:改进的神经网络架构

该文对比了强化学习中深度Q网络(DQN)的两种架构设计。原始架构需要拼接状态和动作作为输入,每次只能计算单个动作的Q值,导致计算冗余、效率低下。改进后的架构仅输入状态,网络一次性输出所有动作的Q值,显著提升了计算效率和稳定性。文章详细分析了两种架构的特点,指出改进后的设计通过并行计算实现了更快的收敛速度、更好的泛化能力,并总结了这种结构优化带来的启示。欢迎访问作者博客rn.berlinlian.cn获取更多计算机知识。

2025-10-27 11:40:32 1068

原创 Continuous States and Value Functions in RL|强化学习中的连续状态与价值函数

本文探讨了强化学习中的离散与连续状态问题。在离散环境中,状态可枚举(如格子世界),而连续状态(如自动驾驶)则需要函数逼近处理。重点分析了月球着陆器任务,其状态包含位置、速度等连续变量,奖励函数需平衡燃料消耗与安全着陆。解决方案是采用深度强化学习,用神经网络逼近Q函数,通过贝尔曼方程更新参数,实现连续状态空间中的最优决策。文章强调理解状态价值是强化学习应用于现实世界的关键。更多内容可访问作者博客rn.berlinlian.cn。

2025-10-26 15:42:08 1232

原创 如何在Mac进行Safari网页长截图?

本文介绍了在Safari浏览器中实现网页长截图的三种方法,重点讲解了最便捷的"开发者模式"操作步骤。首先需在Safari设置中启用开发者功能,然后通过"开发"菜单连接网页检查器,右键点击HTML元素选择"捕捉截屏"即可保存完整页面。相比导出PDF或使用第三方工具,这种方法无需额外软件,能直接生成图片文件,且开发者功能可长期保留便于后续使用。该技巧适合需要完整保存网页内容或进行前端调试的用户,能有效提升工作效率。更多计算机知识欢迎访问作者博客网站rn

2025-10-25 15:32:26 2556

原创 Random environment|随机环境

本文介绍了强化学习中的随机环境概念。在随机环境中,智能体执行相同动作可能导致不同结果,表现为状态转移和奖励的不确定性。文章通过机器人移动的示例说明,动作结果由概率分布决定而非确定性。核心概念是期望回报,即长期平均收益的最大化。贝尔曼方程在随机环境中需引入期望项,考虑所有可能状态的加权平均。随机性使强化学习更贴近现实,智能体需学会在不确定性中做出最优决策。更多计算机知识欢迎访问博客网站rn.berlinlian.cn。

2025-10-23 14:11:14 1292

原创 Bellman Equation|贝尔曼方程

本文介绍了强化学习中的核心概念——贝尔曼方程(Bellman Equation),它通过递归方式将当前状态的价值表示为即时奖励与未来折扣回报之和。文章首先阐述了从回报到价值的思考过程,引出状态值函数V(s)和状态-动作值函数Q(s,a),进而详细解释了贝尔曼方程的数学形式及其含义。通过火星探测车的具体实例,展示了如何利用折扣因子γ计算Q值,验证了贝尔曼方程的递归本质。文章强调贝尔曼方程是强化学习的基础,使智能体能够进行"面向未来的决策",并指出其在Q-learning等算法中的关键作用。

2025-10-22 14:17:41 1472

原创 State-Action Value Function|状态-动作值函数

本文介绍了强化学习中的核心概念——状态-动作值函数(Q函数)。Q函数用于衡量智能体在特定状态下采取某个动作后,按最优策略行事所能获得的期望回报。文章详细阐述了Q函数的数学定义,与状态值函数V(s)的区别,并通过火星车移动的示例演示了Q值的计算方法。最后说明了如何根据Q值选择最优动作,定义了最优Q函数Q*,指出强化学习的目标就是找到能最大化Q(s,a)的最优策略。更多计算机相关内容可访问作者博客网站rn.berlinlian.cn。

2025-10-20 18:37:53 1375

原创 Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

本文介绍了强化学习中的核心概念——策略(Policy)。策略是智能体在给定状态下选择动作的规则,可分为确定性策略和随机性策略。强化学习的目标是通过试错学习优化策略,最大化长期回报。文章通过火星车导航、直升机控制和国际象棋等案例展示了策略在不同任务中的应用,并阐述了策略在马尔可夫决策过程中的桥梁作用。理解策略是掌握强化学习的基础,后续高级方法都将以此为核心展开。更多计算机相关内容可访问博客网站rn.berlinlian.cn。

2025-10-17 16:53:22 862

原创 Return in Reinforcement Learning|强化学习中的回报

摘要:本文介绍了强化学习中的核心概念——回报(Return),它是智能体未来累计奖励的折扣加权和。文章详细解释了回报的数学定义,并通过Mars Rover示例演示了不同折扣因子γ对计算结果的影响:γ越大,智能体越关注长期回报;γ越小则更重视短期收益。折扣因子不仅确保数学收敛,还能调节决策偏好。理解回报是学习价值函数、策略优化等高级主题的基础。更多计算机知识欢迎访问博客网站rn.berlinlian.cn。

2025-10-16 14:03:37 1216

原创 Reinforcement Learning|强化学习

本文介绍了强化学习的核心概念与应用。强化学习是一种通过与环境交互来优化决策的机器学习方法,包含状态、动作、奖励、策略等核心要素。文章以直升机控制、火星探测车等案例说明其工作原理,并列举了在机器人控制、工厂优化、金融交易等领域的应用。同时指出了训练不稳定、计算成本高等挑战,展望了深度强化学习、多智能体系统等发展方向。欢迎访问博客rn.berlinlian.cn获取更多计算机知识。

2025-10-15 14:19:12 1213

原创 TensorFlow Implementation of Content-Based Filtering|基于内容过滤的TensorFlow实现

本文介绍了基于内容的双塔推荐模型实现方法。该模型通过用户和物品两个独立网络将特征映射到同一向量空间,通过点积计算匹配度。文章详细讲解了模型结构设计(包括维度选择、激活函数等)、Keras实现代码、输入归一化处理、损失函数配置(回归/分类任务)以及训练评估流程。特别强调了模型部署方案:预计算物品向量、实时生成用户向量,并结合近似最近邻(ANN)实现高效检索。最后指出了冷启动处理和特征工程的关键点,为推荐系统落地提供了完整技术方案。

2025-10-14 14:07:26 1091

原创 Ethical use of recommender systems|推荐系统的道德使用

推荐系统的伦理使用强调在技术高效与社会责任之间取得平衡。其核心问题包括隐私保护、算法偏见、公平性与用户操控。开发者应确保数据收集合法透明,避免通过个性化推荐强化刻板印象或信息茧房;同时应提升算法可解释性,使用户理解推荐依据。平台需建立伦理审查机制,平衡商业利益与社会影响。伦理化推荐系统不仅提升用户信任与长期满意度,也促进人工智能技术在可持续与负责任方向的发展。

2025-10-13 14:24:37 1205

原创 Recommending from a large catalogue|从大目录中推荐

本文探讨了大规模推荐系统面临的挑战与解决方案。面对电影、广告、音乐等海量候选项目,推荐系统采用"检索+排序"的两步策略:先快速筛选出相关性候选集(检索阶段),再精细化排序(排序阶段)。文章分析了检索数量对系统性能的影响,指出需要通过离线实验和在线A/B测试找到效率与效果的最佳平衡点。最终强调成熟的推荐系统需结合大规模检索与个性化排序,持续优化才能提供快速精准的推荐服务。更多计算机相关内容可访问作者博客网站rn.berlinlian.cn。

2025-10-12 20:02:24 1045

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除