- 博客(94)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 高斯-高斯共轭先验标准结论及推导
本文推导了高斯先验与高斯似然结合的贝叶斯推断过程。当未知参数x服从正态先验N(μ₀,τ₀⁻¹),观测数据yᵢ|x服从N(x,τᵢ⁻¹)时,后验分布仍为高斯分布N(μ_post,τ_post⁻¹)。其中后验精度τ_post是先验精度与各观测精度之和,后验均值μ_post是先验均值与观测值的加权平均,权重为各自精度。该模型在传感器融合、荟萃分析等场景有广泛应用,关键假设包括正态性、条件独立性和已知精度。文末提供了Python实现代码,展示了如何计算后验均值和精度。
2025-12-25 15:23:50
830
原创 Beta 分布学习笔记
本文介绍了Beta分布的定义、性质及其与伯努利试验的关系。Beta分布是定义在(0,1)区间上的连续概率分布,用于描述概率参数q的不确定性。其概率密度函数由Beta函数归一化得到,参数α和β可视为伪计数。通过学习可知,Beta分布可作为伯努利试验中成功概率q的先验分布,并通过试验结果更新为后验分布(参数更新为α+k和β+n-k)。当α=β=1时,Beta分布退化为均匀分布。Beta分布的这种特性使其成为贝叶斯统计中的重要工具。
2025-12-11 21:12:22
641
原创 贝叶斯模型
设HHH为假设,DDD先验概率PHP(H)PH:在观测数据DDD之前,基于已有知识对假设HHH的初始信念。似然函数PD∣HP(D|H)PD∣H:在假设HHH成立的条件下,观测到数据DDD的概率。这里需要特别澄清概念:虽然数学形式与条件概率相同,但称之为"似然函数"时,强调的是将已观测数据DDD固定,将其视为假设HHH的函数,用于衡量不同假设HHH对当前观测数据的解释力。这与将HHH固定、将PD∣HP(D|H)PD∣H视为数据。
2025-12-10 16:38:03
939
原创 【术语解释】神经网络参数的排列不变性(Permutation Invariance of Neural Network Parameters)
摘要:文章通过公司部门重组类比神经网络参数排列不变性,解释神经元顺序调整不影响网络功能。数学上,使用排列矩阵P对权重和偏置进行变换,并调整相邻层参数以保持输出不变。在联邦学习的FedAvg算法中,这种排列不变性导致客户端模型参数空间可能处于不同对称状态,使简单平均失效,需解决神经元对齐问题才能有效聚合模型。
2025-11-25 23:16:45
761
原创 【论文阅读笔记】FedProx
摘要:本文针对联邦学习中的系统异构性和统计异构性挑战,提出FedProx优化框架。FedProx通过允许设备执行可变计算量并添加近端项来稳定收敛,在理论上提供非独立同分布数据下的收敛保证,并在实验中表现出比FedAvg更优的性能,在高度异构环境下平均测试准确率提升22%。FedProx是FedAvg的泛化形式,通过灵活处理设备资源差异和数据分布偏差,显著提升了联邦学习的鲁棒性。实验在合成和真实数据集上验证了其有效性,同时指出参数调优等改进空间。该研究为异构网络中的联邦优化提供了重要解决方案。
2025-11-20 22:53:32
1027
原创 【论文阅读笔记】FL+HC(联邦学习+层次聚类)
在联邦学习(FL)中引入层次聚类(HC)形成 FL+HC 方法,通过客户端局部模型更新的相似度聚类,为不同聚类训练专属模型。同时给出了适用于未知非IID数据的默认超参数配置。论文贡献提出 FL+HC 方法,通过单次层次聚类实现专属模型训练,兼顾准确率与通信效率。系统刻画了层次聚类在不同IID/非IID场景下的影响,验证了方法通用性。实证分析超参数影响,给出未知非IID数据的默认超参数(L1距离+全链接)。
2025-11-18 15:49:21
712
原创 梯度下降优化算法详解:从基础到进阶
本文系统介绍了三种梯度下降算法:批量梯度下降(BGD)、随机梯度下降(SGD)和动量梯度下降(Momentum)。BGD使用整个训练集计算梯度,稳定性好但计算开销大;SGD每次迭代只用一个样本估计梯度,计算高效但引入随机性;Momentum通过积累历史梯度改进SGD,加速收敛并减少振荡。文章详细分析了每种方法的理论原理、算法流程和优缺点,并通过代码实现验证了其有效性。这些优化技术为机器学习模型训练提供了基础工具,需根据数据规模和具体任务特点选择合适的算法。
2025-11-07 09:34:23
772
原创 一个本地 Git 仓库关联多个远程仓库
这样配置后,你的代码就可以轻松同步到多个平台,既可以利用 GitHub 的生态,又可以享受 Gitee 的国内访问速度!
2025-11-05 11:13:43
471
原创 把本地 Python 项目用 Git 进行版本控制并推送到 GitHub
本文详细介绍了如何将本地Python项目通过Git进行版本控制并推送到GitHub。主要包括:安装Git和注册GitHub账号、初始化Git仓库并配置用户信息、创建.gitignore文件排除不需要版本控制的文件、添加和提交项目文件、在GitHub创建远程仓库、连接本地与远程仓库并推送代码。文章还提供了后续开发的标准工作流程和重要提醒,如避免上传大型数据集、保持定期提交等。通过这8个步骤,开发者可以轻松实现Python项目的版本控制和云端备份。
2025-11-05 10:15:04
682
原创 Dirichlet 分布的理解与应用
本文探讨了Dirichlet分布在联邦学习中模拟非独立同分布(Non-IID)数据的应用。Dirichlet分布通过基向量m和浓度参数α控制概率分布向量的特性,α越小则数据分布越不均匀。在联邦学习中,该方法可灵活调整客户端间的数据分布差异程度:小α对应高度Non-IID数据,大α则接近IID分布。文章提供了Python实现代码和可视化结果,展示了不同参数下数据分布的差异。Dirichlet分布为研究联邦学习算法在不同数据分布下的性能提供了有效的技术工具。
2025-11-04 22:37:23
908
原创 协同过滤基础——基线预测器(Baseline Predictors)
本文介绍了协同过滤推荐系统中的基线预测器(Baseline Predictor),用于消除用户和物品的系统性偏差。基线预测器通过公式$b_{ui}=μ+b_u+b_i$,结合全局平均分$μ$、用户偏差$b_u$和物品偏差$b_i$来预测评分。文章详解了两种参数估计方法:正则化最小二乘法和分步估计法,并阐述了基线预测器在信号分离、可解释性等方面的核心价值。该方法能有效过滤评分中的"噪声",为后续精准推荐奠定基础。
2025-08-05 23:19:41
1050
原创 跟着顶刊学写论文-摘要1
《顶刊论文摘要写作范式解析》以ICLR2025论文为例,系统拆解了摘要写作的黄金结构:首先通过实证研究引出技术价值(①),转折指出领域局限(②),继而挑战传统认知(③),展示创新发现(④-⑤)。基于发现提出新方法(⑥),详述模型架构(⑦),实证验证效果(⑧),延伸分析特性(⑨),最终升华跨领域意义(⑩)。该范式呈现清晰的"问题发现-方法创新-验证分析"逻辑链。
2025-08-04 23:00:47
863
原创 Word2Vec 模型原理
Word2Vec是一种通过浅层神经网络学习词向量的模型,由谷歌团队于2013年提出。它采用单隐藏层结构,将词语映射到低维连续空间,解决了传统one-hot编码的维度灾难和语义孤立问题。核心包含CBOW和Skip-gram两种架构:CBOW通过上下文预测中心词,适合高频词;Skip-gram用中心词预测上下文,擅长捕捉低频词。模型通过最大化预测概率(最小化负对数似然损失)训练,最终输出词向量矩阵。这些具备语义关联的词向量推动了NLP任务的发展,在文本分类、情感分析等领域广泛应用。
2025-08-04 14:10:55
823
原创 奇异值分解(singular value decomposition,SVD)
本文介绍了奇异值分解(SVD)的定义、计算过程、应用,以及在数据压缩和图片压缩案例中的实战演示
2025-07-09 21:22:41
972
原创 推荐系统中的相似度
推荐系统中常用的相似度计算方法比较 推荐系统的核心在于精准计算对象间的相似度。本文介绍了四种常用方法:1)余弦相似度,通过向量方向衡量相似性,适合关注趋势而非绝对值的场景;2)皮尔逊相关系数,修正均值影响,能更好识别线性相关关系;3)欧氏距离,计算数值绝对差异,需配合归一化处理;4)Jaccard相似度,专用于集合数据,计算元素重叠程度。不同方法各有侧重,实际应用中需根据数据类型和业务需求选择合适方法,有时需组合使用以获得最佳推荐效果。
2025-07-08 20:03:28
921
原创 【了解】通感算一体化网络
以智慧城市、智慧交通、智能家居为代表的 6G 典型应用场景中存在着大量能力高度差异化的智能自动化设备,对极低时延、极高可靠性、超大带宽、海量接入等方面的通信需求越发严苛,智能自动化类型的应用对感知能力也提出了高精度、高分辨率等要求。该网络内的各网元设备通过通感算软硬件资源的协同与共享,实现多维感知、协作通信、智能计算功能的深度融合、互惠增强,进而使网络具备新型闭环信息流智能交互与处理及广域智能协作的能力,为 6G 的智慧城市、智慧交通、智能家居等典型应用场景提供支持。
2025-05-06 22:13:31
1520
原创 【了解】数字孪生网络(Digital Twin Network,DTN)
是可以使用 “用户意图” 进行管理的网络,它能够识别和接收操作员或用户的意图,并根据用户意图自主地配置和调整自己,从而实现预期的结果,而无需用户指定用于如何实现结果的详细技术步骤。越来越为产业界所重视。“基于意图的网络”、“自动驾驶网络”、“零接触 (Zero-Touch) 网络”等概念和技术相继被业界提出和推广,希望借助网络智能化技术,实现网络自动化和自主化运行的愿景。,实现物理网络与孪生网络的实时交互映射,帮助网络以更低成本、更高效率、更小的现网影响部署各种网络应用,助力网络实现极简化和智慧化运维。
2025-05-05 21:51:37
1550
原创 阅读论文笔记《Translating Embeddings for Modeling Multi-relational Data》
TransE 模型最大的优点就是在链接预测任务中表现极为优秀。它不仅能够准确地预测出实体之间的关系,而且在处理大规模数据集时,具有较高的效率和可扩展性。同时,模型的简单性使得它能够很好地泛化,在学习新关系时速度快,不需要对已经训练好的嵌入进行复杂的修改。
2025-02-19 21:38:45
1279
原创 阅读论文笔记《Efficient Estimation of Word Representations in Vector Space》
这篇文章写于2013年,对理解 word2vec 的发展历程挺有帮助。本文仅适用于 Word2Vect 的复盘。
2025-02-15 14:06:55
1604
原创 【总结报告】基于归纳知识图嵌入的元知识转移(Meta-Knowledge Transfer for Inductive Knowledge Graph Embedding
本文对论文 Meta-Knowledge Transfer for Inductive Knowledge Graph Embedding 做了简单的总结,主要总结了元知识的建模和获取这两部分。
2024-10-30 23:20:38
1133
原创 Python 基础:使用 unittest 模块进行代码测试
在本文中,我们学习了:如何使用模块unittest中的工具来为函数和类编写测试,如何编写继承的类,以及如何编写测试方法,以核实函数和类的行为符合预期;如何使用方法setUp()来根据类高效地创建实例并设置其属性,以便在类的所有测试方法中使用。
2024-06-27 20:29:05
1162
1
原创 Python 基础:用 json 模块存储和读取数据
用户关闭程序时,往往需要保存用户提供的信息,一种简单的方式是使用(JavaScript Object Notation)模块。这个模块最初是为 JavaScript 开发的,但随后成了一种常见格式,被包括 Python 在内的众多语言采用。这个模块让我们能够将简单的 Python 数据结构转储到文件中,并在程序再次运行时加载该文件中的数据。我们还可以使用 json 在 Python 程序之间分享数据。
2024-06-27 18:08:58
702
原创 Transformer 结构
这个部分类似于我们最开始讲的端到端模型中的注意力机制,它是为了帮助 Decoder 端每一步的生成都可以关注和整合每个 Encoder 端每个位置的信息。和 Encoder block 一样,这样的 Decoder block 也可以进行堆叠,如上图我右方标记了“Nx”。在原论文中,Decoder block 也是一共堆叠了 6 层。
2024-06-27 14:38:23
1888
原创 Python 基础:异常
异常是程序运行时可能遇到的非预期情况,如除以零或文件未找到等。使用try-except代码块可以捕获并处理这些异常,防止程序因错误而中断而代码块则进一步允许在无异常发生时执行特定代码。静默失败是指程序在遇到错误时不显示任何错误信息,继续执行。合理使用异常处理机制,可以提高程序的健壮性和用户体验。
2024-06-20 20:00:06
1122
原创 Python 基础:文件
虽然 open() 和 open() 搭配使用也可以,但是并非在任何情况下都能轻松确定关闭文件的恰当时机。如果非要在 with代码块外访问的话,可以先在 with 代码块内将文件的各行存储在一个。如果指定的文件不存在,Python 将创建一个空文件。为此,我们可以一次性读取文件的全部内容,也可以以每次一行的方式逐步读取。让我们只管打开文件,并在需要时使用它,Python 自会在合适的时候。如果要给文件添加内容,而不是覆盖原有的内容,可以以附加模式(要以每次一行的方式检查文件,可对文件对象使用。
2024-06-19 20:04:04
1108
原创 BPE (Byte-Pair Encoding) Tokenization
我们其实也可以直接将每个单词作为一个单元来进行后续的训练,但是这样当我们处理新单词的时候就没有办法给出一个合适的表示,可能许多没有见过的所有的字都公用同一个表示。将文本数据集中的所有实例中的选定字符对替换为新创建的词元,从 step 2 进行重复,直到达到预定的词汇表大小或无法进一步合并字符对。然而,作为真人的我们第一次看到生词的时候,并不是对它一无所知的,我们可以通过生词的组成来进行猜测意思。最终生成的词汇表包含了所有 token,包括原始的字符和合并后的 token。如果我们要处理一个没有见过的单词。
2024-06-19 13:45:18
1348
原创 Python 基础:类
定义一个类非常简单,只需要使用class关键字,后面跟着类名(首字母大写),然后是冒号。类体中的代码块定义了类的属性和方法。class Car:return f"在上面的例子中,Car是一个类,它有三个属性:makemodel和year。__init__(开头结尾都有两个下划线)方法是一个特殊的方法,被称为类的构造器,它在创建类的新实例时自动调用。在这个方法中,形参self必不可少。
2024-06-16 20:26:21
3590
2
原创 注意力机制
给定一个查询向量(query vector)和一组值向量(value vectors),注意力机制根据query计算value的加权和。计算相关性给定一个查询向量(query vector)和一组值向量(value vectors),首先计算query与每个value之间的相关性。通常可以使用点积、内积、余弦相似度等方法来度量相关性。计算结果可以表示为一个得分向量,其中每个得分表示query与对应value的相关性。计算注意力权重通过对得分向量进行归一化,可以得到value。
2024-06-16 11:10:41
800
原创 Seq2seq、编码器&解码器神经网络
Seq2seq(Sequence to Sequence)的作用是将一种序列转换为另一种序列,比如将英文句子翻译为中文句子,或者将一篇文章进行概括。一种解决 Seq2seq 问题的方法是编码器-解码器模型。下面我们以英语句子翻译为西班牙句子为例来进行介绍。
2024-06-10 17:09:20
1363
原创 大模型基础
从GPT-3 (1750亿个参数) 中,我们可以看到大规模预训练语言模型中的丰富知识。之所以选择预训练语言模型,是因为之所以选择预训练语言模型在 GLUE 上的结果优于人类的表现,这反映了预训练语言模型的语言理解能力。基于以上的特点,使用预训练的语言模型现在是各种 NLP 任务的标准,与语言模型相关的研究也在 2018 年迅速发展了起来。在GPT-3中,许多复杂的任务,如编写代码和下棋,可以转化为基于预先训练的语言模型的动作序列生成。第二步:然后,我们可以使用特定任务的训练数据对预先训练的语言模型进行。
2024-05-05 11:45:38
511
原创 自然语言处理基础
自然语言处理(Natural Language Processing,简称NLP)是计算机科学与人工智能领域的一个重要研究方向,目的是让计算机能够理解、解析、生成和处理人类的自然语言。自然语言处理有着非常重要的意义,其一,我们认为人类语言是人类智能一个非常重要的体现;其二,NLP 是人工智能能够通过图灵测试的一个非常重要的工具。其中图灵测试(最开始的名字是 imitation game)是判断机器是否智能的一个非常重要的手段。
2024-05-03 18:56:09
1479
1
原创 SiteSpace 使用方法笔记
CiteSpace 是一个用于可视化和分析科学文献的工具。它可以从科学文献库中提取关键词、作者、机构和引用关系等信息,并将其可视化为图形网络。一些使用案例。
2024-04-07 23:50:38
1833
计算机考研初试资料(英语一)
2024-04-03
pygame怎么在中文输入法下捕获字母按键?
2024-07-05
jeesite导入数据表并初始化数据错误显示BUILD FAILURE
2021-03-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅