- 博客(83)
- 收藏
- 关注
原创 Ensemble
所以如果总共进行了m论梯度提升,总共需要m*n棵树,这对于计算的要求是巨大的,所以对于类别过多的分类任务,推荐使用HGB。梯度提升需要计算当前模型的残差并通过梯度下降的方法来优化下一步的训练,所有所比较复杂适合较为复杂的学习器,而对于AdaBoost是通过根据预测效果不断改变错误样本的权重来优化,但这容易受噪声数据影响进而导致过拟合。梯度提升的计算专注于单个数据,而直方图梯度提升是先把连续的数据特征分箱,然后在分箱后的特征上构建模型,这样减少理论算法复杂度和内存使用,所以更加适用的大的数据集。
2024-05-14 14:52:16 471
原创 决策树学习记录
对于多输出的问题,在利用人的上半张脸来恢复下半张脸的例子中,其实本质上应该是个回归问题,输入是上半张脸的特征,输出是下半张脸的特征,由于像素值是个连续的多值,所以是个回归的多输出问题。然后对于cpp_alpha和impurities,每个alpha是一个一定程度的惩戒因子,用于控制数的复杂度,随着alpha的增加,更多的树枝会被修剪进而降低树的复杂度。他其实是在任意两个特征基础上对于所有的点进行一个分类,并且展示出不同类别的之间的决策面,进而可以很清楚的看出在这两个特征上各个数据点种类的分布。
2024-05-13 15:06:00 212
原创 leetcode算法笔记-第一章练习题目
但是如果你排在一起,或26是肯定不等于加26的,或运算等于加法情况只能是在对应位为0或相反时成立,不能有相同位置的值为1。我们只用遍历一遍数组,对于当前i,先查找target-nums[i]是否在哈希表中,如果在的话就返回numDict[target-nums[i]]和i;'A'的ASCII码二进制是0100 0001,因为二进制第6为0,也就是表示32的那一位是0,并且字母只有26位,所以到最后一个字母‘Z'表示32的那一位还是0(算法时间复杂度为O(mn),m为网格的行数,n为网格列数。
2024-05-11 16:39:34 536
原创 leetcode算法笔记-算法复杂度
在这个代码中,最好时间复杂度为O(1),最坏时间复杂度为O(n)。这样时间复杂度就不唯一,所以此时我们需要计算平均时间复杂度。对于这个算法总共有n+1种情况,即在n个位置上找到指定元素和最终没有找到指定元素。空间时间复杂度的计算就较为简单,主要包括局部变量所占用的存储空间和进行递归时所使用的堆栈空间。阶乘时间复杂度一般出现在全排列和旅行商问题中,而对数时间复杂度一般出现在分治算法中。乘法原则:不同的时间复杂度相乘,结果为时间复杂度的乘积。,所以平均时间复杂度就为O(n)。
2024-05-11 09:53:24 265
原创 数据中心法
数据中心法是实现词法分析器的结构化方法。通过设计主表和子表分开存储状态转移信息,实现词法分析器的控制逻辑和数据结构分离。状态爆炸是指当状态和转移较多时,单一使用一个表来存储所有的信息的话会导致表过大和效率低下。难以维护是指仅有一个大表的话,词法分析的状态机逻辑和状态表结构。复杂性是指当对复杂的词法进行分析时,传统状态机会变的非常复杂。主要解决了状态爆炸、难以维护和复杂性的问题。数据项=状态+分表地址或者子程序入口。当状态为终态时,分表地址为子程序入口。当状态为非终态时,为分表入口。进而导致难以调整和维护。
2024-05-10 22:43:26 213
原创 ubuntu安装docker
然后,你需要更新你的软件列表,就好像你在检查所有可用的最新软件版本。接着,你要安装一些允许你安装来自互联网的程序的工具。之后,你将添加Docker的专属位置到你的软件仓库列表中,这样你的电脑就知道从哪里获取Docker。有些命令需要一些时间来完成,尤其是下载和安装Docker时,这取决于你的互联网速度。在运行Docker命令时,如果没有使用`sudo`或没有将用户添加到`docker`组中,可能会提示权限错误。在Ubuntu中安装Docker,你需要执行一系列命令来设置Docker的存储库并从中安装。
2024-04-15 15:44:35 407
原创 汉明码检错与纠错的结论(hamming code)
变回它改变前的合法编码,而在海明距离是2d+1时,如果出现d位差错,它只需要d位改变就可变回合法编码,一旦出现d+1位差错,数据也会想要通过d位改变成为合法编码,但此合法编码并非之前我们想要的编码,所以2d+1的海明距离只能纠正d个错误。如图,非法编码1只需改变d位就能变为合法编码1,而如果其一开始的编码为合法编码2,即其出现了d+1个错误,其仍会变为合法编码1,无法达到纠正效果。这是因为,如果距离小于d+1,那么当一个帧发生少于或等于d个错误时,可能会变成另一个有效的帧,这样就检测不到错误了。
2024-04-05 16:13:59 939
原创 iostream、fstream、sstream、string、vector、unordered_map、stack
用于输入输出操作,包含了处理标准输入输出流的功能(例如,cin, cout, cerr等)。提供了一种通过键来快速访问元素的方式,基于哈希表实现。实现了动态数组的功能,可以存储任意类型的对象,并且可以动态增长和缩小。实现了栈的数据结构,提供了后进先出(LIFO)的数据管理方式。提供了字符串处理功能,包括定义和操作。用于字符串的流操作。(向string写入数据),和。(可用于读写string)类。用于文件的读写操作。(可以同时用于读写文件)类。(从string读取数据),(用于写入文件),和。
2024-03-20 16:10:19 562
原创 HDFS EXERCISES
是一个在Linux和Unix系统中用于Bash shell的配置文件。当你启动一个新的终端会话时,或者在命令行中启动一个新的Bash实例时,该文件会被自动读取并执行。文件中包含的命令用于配置终端会话的。符号,它告诉 shell 去获取与紧随其后的文字对应的变量的值。在 Bash 和其他类 Unix 操作系统的 shell 中,符号用于访问变量的值。这可能是因为hdfs命令不在系统环境变量中。目录添加到PATH环境变量中。我们可以手动启动datanode。当你定义了一个变量,比如。找到hadoop的位置。
2024-03-17 19:51:00 704
原创 基于关系交互的块分解,来完成时序知识图谱的补全
提出基于关系交互的块分解来完成时序知识图谱的补全。块分解可以看做是CP分解和Tucker分解一个变形。TBDRI以一种增强的方式学习逆联系,以加强正向联系和逆关系的结合。另外TBDRI使用了核心张量作为时间信息来更充分的绑定时间戳。
2023-08-26 15:42:47 380
原创 时序结构重要性加权图卷积网络用于时序知识图谱补全
大多数现有的TKGC方法将时间信息合并到三元组中,并将它们转换为KGC任务,这并没有充分利用时间信息对三元组的影响。此外,现有的基于消息传递网络的嵌入学习方法将具有相同注意力的邻居传递的特征进行聚合,忽略了每个节点在消息传递过程中具有不同重要性的复杂结构信息。因此,设计了一种基于时间属性感知的TKGC方法(TAL-TKGC),其中包括一个时间注意模块和一个重要性加权GCN。时间注意模块用于捕捉语义层次上的时间戳、实体和关系之间的深层联系。同时,在重要性加权GCN中,将时间信息的结构重要性和对实体的关注度作为
2023-08-18 21:56:31 842
原创 Python科研绘图--Task01
本文介绍了科研论文配图绘制的基础知识,具体包括科研论文配图的绘制规范、绘制的基本原则,除此之外,还介绍了科研论文配图绘制中的色彩搭配,包括色彩模式、色轮配色原理、配图的颜色主题以及选择色彩的配色工具,其目的是为了让读者更好地了解科研论文配图的绘制规范,重视颜色选择在配图制作中的作用
2023-08-16 10:28:40 1302 1
原创 plt.rcParams
plt.rcParams 是 Matplotlib 库中的一个字典对象,用于管理全局配置设置。通过操作这个字典,你可以自定义和调整 Matplotlib 绘制图形时的各种参数和属性,例如字体大小、线条样式、颜色、图形大小等。
2023-08-07 20:31:09 2444
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人