- 博客(13)
- 收藏
- 关注
原创 CL Info
CL进展主要集中在改进 BP 算法以减少灾难性遗忘(Catastrophic Forgetting)、提高模型的适应性和效率等方面。
2024-11-06 14:20:17 852
原创 When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
超越神经缩放法则:在机器学习领域,神经缩放法则描述了模型性能与模型大小、数据量之间通常遵循幂律关系。超越神经缩放法则旨在寻找突破这种传统幂律缩放的方法,以实现更高效的模型训练和性能提升。关键在于根据数据修剪指标修剪数据,影响模型的缩放规律。网络爬取的大规模语料库嘈杂质量较低,已经存在一些启发式剪枝方法:修剪掉重复文本,特殊字符、非英文文本、人工管理“blocklist”网站的数据,设定文本长度阈值等。这些手动管理的过滤器可以筛选某些噪声实例,但针对单个训练实例还未有最佳数据质量度量。
2024-11-01 17:34:00 708
原创 机器视觉 2.神经网络
在每次迭代中,我们首先随机抽样一个小批量B, 它是由固定数量的训练样本组成的。然后,我们计算小批量的平均损失关于模型参数的导数(也可以称为梯度)。梯度下降最简单的用法是计算损失函数(数据集中所有样本的损失均值) 关于模型参数的导数(在这里也可以称为梯度)。幸运的是,上面式子的解并不依赖于σ。虽然使许多指数函数的乘积最大化看起来很困难, 但是我们可以在不改变目标的前提下,通过最大化似然对数来简化。解析解可以进行很好的数学分析,但解析解对问题的限制很严格,导致它无法广泛应用在深度学习里。
2024-10-20 13:18:30 463
原创 操作系统实验预备知识
在线程中禁止调用exit函数,否则会导致整个进程退出,取而代之的是调用pthread_exit函数,这个函数只会使一个线程退出,如果主线程使用pthread_exit函数也不会使整个进程退出,不会影响其他线程的执行。创建线程成功后,新创建的线程则运行参数三和参数四确定的函数,原来的线程则继续运行下一行代码。子进程是父进程的完整复制,另外,在很多情况下,主线程创建了子线程,如果子线程要进行大量的耗时运算,主线程往往会在子线程之前结束,所以通常会使用pthread_join()让主线程阻塞,等子线程结束。
2024-10-13 14:11:45 822
原创 熟悉Linux基本操作命令及开发环境
ls –l //这里的参数是短横线“-”跟字母“l”,加这个参数后,除了显示文件名,还将文件的权限、拥有者、文件大小等信息详细列出。不管在什么状态,最好在运行下面命令前,先按一下ESC键,以防出错。$ ls /bin //显示目录bin的内容,此处给的是bin的完整路径,前面省略了root。$ ls –a //加参数“-a”,将显示当前目录下的所有文件,包括带“.”的隐含文件。$ ./hello //在提示符后先输入“.”,再输入“/”,运行hello,回车即看结果。
2024-09-25 19:59:01 352
原创 混淆矩阵(Confusion Matrix)
TP(True Positive)、FP(False Positive)、TN(True Negative)和FN(False Negative)是用于评估分类模型性能的四个基本概念,特别是在二分类问题中。: 当一个样本实际上是正类(例如,病人确实有病),并且模型正确地预测了它是正类时,这种情况称为真阳性。: 如果一个样本实际上是负类(例如,病人实际上没有病),但模型错误地预测为正类,这就是假阳性。: 当一个样本实际上是负类,并且模型正确地预测了它是负类时,这是真阴性。,比如正确判断某人未患病。
2024-09-24 19:14:36 347
原创 1.机器学习介绍
机器学习从经验中学习。是机器学习的一个主要分支。深度学习与经典方法的区别主要在于:前者关注的功能强大的模型,这些模型由神经网络错综复杂的交织在一起,包含层层数据转换。传统机器学习方法相比,深度学习的一个主要优势是可以处理不同长度的数据。数据集(dataset)参数(parameter):可以被看作旋钮,旋钮的转动可以调整程序的行为模型(model):任一调整参数后的程序模型族(Model Family):通过操作参数而生成的所有不同程序(输入-输出映射)的集合学习算法。
2024-09-20 11:55:45 725 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人