- 博客(94)
- 收藏
- 关注
原创 贝叶斯向量自回归模型 (BVAR)
在金融时间序列分析中,向量自回归 (VAR) 模型作为一种基础且广泛应用的工具,能够捕捉多个时间序列变量之间的动态关系。传统 VAR 模型在参数估计时通常采用普通最小二乘法 (OLS),但这种方法在样本量有限的情况下往往表现不佳,容易出现过拟合现象。贝叶斯向量自回归 (BVAR) 模型通过引入贝叶斯统计框架,能够有效利用先验信息对模型参数进行正则化,特别适合处理小样本数据问题。随着金融市场的复杂性增加和数据获取难度的提高,BVAR 模型在金融时间序列分析中的优势日益凸显。。
2025-09-01 17:08:24
1349
25
原创 凸集与优化
凸集的定义依赖 “凸组合(Convex Combination)” 这一概念,我们先明确它,再定义凸集。一个集合 S⊆Rn是凸集,当且仅当:对任意两个点x_1∈S,x_2∈S以及任意λ∈[0,1],它们的凸组合 λx_1+(1-λ)x_2仍属于S集合中任意两点的连线(所有凸组合)都完全包含在集合内。满足定义的基础条件,允许线段上的点与函数图像完全重合(即存在 “平的部分”)。在凸函数的基础上,进一步要求线段严格位于函数图像上方(除端点外无重合),是更强的条件。凸函数的定义基于。
2025-09-01 17:04:08
744
原创 模式匹配自动机全面理论分析
算法时间复杂度(平均)时间复杂度(最坏)空间复杂度适用场景BFO(n+m)O(n×m)O(1)小规模文本,简单场景RKO(n+m)O(n×m)O(1)中等规模文本,哈希冲突少KMPO(n+m)O(n+m)O(m)长文本,单模式匹配BMO(n)O(n×m)O(s+m)长文本,单模式匹配AC 自动机O(n+z)O(n×m)O(k)多模式匹配,固定模式集合Wu-ManberO(n+z)O(n×m)O(k+s^B)多模式匹配,动态模式集合。
2025-08-16 18:19:12
862
6
原创 平滑方法(smoothing)
平滑(smoothing)是机器学习中处理概率估计的“保险丝”:当数据里出现 0 或接近 0 的计数时,用人为的小量把概率“撑”起来,防止模型因为没见过就彻底否定某事件的可能性。平滑 = 在经验频率上人为加一个“伪计数”(pseudo-count),使所有可能事件的概率都 > 0,且总和仍为 1。这种做法不但有效处理了稀疏数据(稀疏数据:文本、推荐系统等高维离散空间里,绝大多数组合在训练集里都是 0。
2025-08-16 18:17:48
1089
34
原创 有限状态自动机模型
有限状态自动机(Finite Automaton, FA)是计算理论里最简洁、也最具代表性的抽象计算模型之一。它把“计算”看成一台只能处于有限个内部状态、并根据输入符号在这些状态之间转移的装置。有限状态自动机常被用到词法分析当中,词法分析(Lexical Analysis)可被理解为将字符(String)序列转换为单词(Token)序列的过程,词法分析器则是以函数的形式存在。
2025-08-11 00:30:00
889
原创 Shapley与SHAP
这是最常用的SHAP图类型,用于展示所有特征对模型预测的总体影响。每一行代表一个特征,特征按其对模型预测的平均影响大小排序。每个点的颜色表示特征值的大小(通常红色表示高值,蓝色表示低值),点的位置表示该特征对预测的贡献值。通过Summary Plot,我们可以快速识别哪些特征对模型的预测影响最大,以及这些特征的值如何影响预测结果。
2025-08-01 02:15:00
1023
29
原创 相似度计算
二维平面:两点 P(x_1, y_1) 与 Q(x_2, y_2) 的欧式距离n 维空间:向量 X=(x_1,…,x_n) 与 Y=(y_1,…,y_n)对于 n 维空间中的两点曼哈顿距离为:对于 n 维空间中的两个点其切比雪夫距离给定一个随机向量 X in Rp和其分布的协方差矩阵 S(正定),与均值向量 mu的马氏距离为:若 S 是单位矩阵(变量独立且方差相等),则退化为欧氏距离。若变量尺度不同或存在相关性, S-1会“修正”这些影响。
2025-07-20 16:08:32
807
44
原创 我的创作纪念日
而我只将质疑当作对我热爱的褒奖,将日积月累的博客当作必胜者的信条,假以时日,必为我之成功添砖加瓦。从各个方面来看,我并不优秀,打开抖音,我面对SereinNIAN的好文笔望洋兴叹,打开小红书,认真聪慧的王姐让我对自己的高三生活感到后悔,在CSDN上认识的大佬亦是散发着自身夺目的光彩,有的搭建了自己的博客网站,有的在各类比赛上拿到了喜人的奖项,我在他们身上看到汗水,看到荣耀,看到那从未属于过我的色彩跃入我的脑中最向往的样子。
2025-05-25 18:33:15
772
6
原创 随机森林(Random Forest)
随机森林(Random Forest)是一种基于决策树的集成学习算法,它通过构建多个决策树并将它们的预测结果进行综合,从而提高模型的准确性和稳定性。
2025-05-15 10:54:28
1771
62
原创 机器学习:让数据开口说话的科技魔法
在人工智能飞速发展的今天,「机器学习」已成为推动数字化转型的核心引擎。无论是手机的人脸解锁、网购平台的推荐系统,还是自动驾驶汽车的决策能力,背后都离不开机器学习的技术支撑。那么,机器学习究竟是什么?它又有哪些类型和应用?让我们一探究竟。
2025-04-14 23:28:15
1420
96
原创 Python错误分析与调试
在Python编程的过程中,我们难免会遇到各种各样的错误,而有效地分析和调试这些错误,能让我们的代码快速恢复正常运行,今天就来和大家聊聊Python中错误分析与调试的相关内容。
2025-04-07 13:10:16
1630
8
原创 闭包和装饰器
闭包(Closure)是 Python 中一个非常重要的概念,它是一种特殊的函数对象,通常用于封装和延迟计算某些值。以下是闭包的详细定义和解释:1.闭包的定义闭包是指一个函数对象,它不仅包含函数的代码,还绑定了函数外部的自由变量(free variable)。自由变量是指在函数内部被引用,但不是函数参数的变量。闭包允许函数访问和操作这些自由变量,即使这些变量的作用域已经结束。2.闭包的构成要素一个闭包通常由以下三个部分组成:• 外部函数:定义了自由变量的函数。
2025-04-06 09:06:48
1243
12
原创 机器学习-聚类分析算法
聚类分析是一种无监督学习的统计分析方法。它的主要目的是将一个数据集中的样本(或观测值)按照某种相似性或距离度量划分成若干个类别(簇)。在聚类过程中,同一个簇内的样本具有较高的相似性,而不同簇之间的样本相似性较低。例如,在市场细分中,企业可以利用聚类分析将消费者划分为不同的群体,每个群体内的消费者在消费习惯、偏好等方面相似,而不同群体之间存在明显差异。
2025-04-03 10:14:30
8811
123
原创 数据处理与机器学习入门
• 原理:模拟人脑神经元的工作方式,通过多层神经元的组合来学习数据中的模式。• Python:通过Pandas进行数据处理,Scikit-learn进行机器学习建模,是目前最流行的机器学习编程语言之一。深度学习是机器学习的一个重要分支,基于人工神经网络的多层结构,能够自动学习数据中的复杂特征表示。• SAS:适合企业级数据分析,具有强大的数据处理和统计分析能力,广泛应用于金融、医疗等领域。• SPSS:适合非编程用户,提供丰富的可视化操作界面,能够快速进行统计分析和数据挖掘。
2025-03-31 14:18:01
2146
54
卡了一个星期的创作者审核了不同意不拒绝什么情况
2025-04-09
由于flask当中配置数据库的问题
2025-02-11
pygame当中的条件语句问题
2025-02-05
关于#pygame#的问题,请各位专家解答!
2025-02-04
Django页面的连立
2025-01-28
在pycharm中编写好django框架数据库创建与连接
2025-01-23
关于#django#的问题:为什么找不到模版文件
2025-01-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人