![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 72
UQI-LIUWJ
这个作者很懒,什么都没留下…
展开
-
机器学习笔记:初始化0的问题
他们的损失函数都是交叉熵sigmoid函数的导数:他们能不能用0初始化呢?原创 2024-07-09 11:48:37 · 762 阅读 · 0 评论 -
LLM笔记:训练大模型之并行化
数据并行。原创 2024-07-03 14:30:10 · 271 阅读 · 0 评论 -
机器学习/pytorch笔记:time2vec
【代码】机器学习/pytorch笔记:time2vec。原创 2024-06-25 11:32:19 · 464 阅读 · 0 评论 -
机器学习笔记:label smoothing
在传统的分类任务中,我们通常使用硬标签(hard labels) 即如果一个样本属于某个类别,其对应的标签就是一个全0的向量,除了表示这个类别的位置为1。 例如,在一个3类分类任务中,某个样本的标签可能是 [0,1,0] Label Smoothing 的思想是将这些硬标签替换为软标签(soft labels)。 例如,对于上述的三类问题,我们可以将标签 [0,1,0]转换为 [0.1,0.8,0.1] 这样做的效果是降低模型对于标签的绝对信任度,鼓励模型学习到更加平滑的概率分布原创 2024-06-10 23:57:19 · 311 阅读 · 0 评论 -
机器学习笔记:focal loss
1 介绍Focal Loss 是一种在类别不平衡的情况下改善模型性能的损失函数 最初在 2017 年的论文《Focal Loss for Dense Object Detection》中提出 这种损失函数主要用于解决在有挑战性的对象检测任务中,易分类的负样本占据主导地位的问题,从而导致模型难以学习到难分类样本的特征Focal Loss 修改了标准的交叉熵损失函数,通过减少易分类样本的相对损失来增加对难分类样本的关注 其基本形式为如下FL的部分 γ 是调节因子,用于控制易分类样本对损原创 2024-06-10 23:38:42 · 411 阅读 · 0 评论 -
机器学习/huggingface笔记:Transformer内存占用刨析 和高效训练
参考内容: Model training anatomy (huggingface.co)原创 2024-05-20 23:06:09 · 373 阅读 · 1 评论 -
NLP 笔记:TF-IDF
TF(词频) TF代表的是某个词在一篇文档中出现的频率。 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。 词频衡量了某个词在特定文档中的重要性。 w是某个单词 d是特定文档 count(w,d)——这个单词在这个文档中出现的次数 size(d)——这个文档的单词数量 IDF(逆文档频率) IDF则衡量的是某个词在整个文档集中的普遍性 IDF用来降低原创 2024-05-01 18:42:37 · 778 阅读 · 0 评论 -
大模型对比:继续预训练 VS 微调
特定任务的数据集特定领域或类型。原创 2024-04-11 11:46:25 · 1376 阅读 · 0 评论 -
大模型笔记:LoRA
添加了Adapter后,模型整体的层数变深,会增加训练速度和推理速度。类似于soft prompt。原创 2024-04-10 11:56:52 · 426 阅读 · 0 评论 -
大模型笔记:Prompt tuning
上述两个组件被称为Pattern-Verbalizer-Pair(PVP),一般记作P=(T,V)原创 2024-04-09 20:58:57 · 1297 阅读 · 0 评论 -
RAG笔记:常见问题以及解决方法
通过标签分类文档,在搜索时通过标签来缩小搜索范围,减少无关信息干扰,检索与用户查询最相关的文档。采用分布式处理框架提升力,确保系统在面对大规模数据时仍能保持高性能和高可用性。分析用户的查询词汇和历史交互,缩小搜索范围,提高检索的相关性。原创 2024-03-25 20:24:06 · 897 阅读 · 0 评论 -
NLP 笔记:LDA(训练篇)
吉布斯采样的基本思想是,通过迭代的方式,逐个维度地更新所有变量的状态。原创 2024-03-23 19:29:10 · 807 阅读 · 0 评论 -
NLP 笔记:Latent Dirichlet Allocation (介绍篇)
LDA 创建一个“几何的”方法:假设我们有三个topic,他就创建一个三角,每个角是一个主题,然后将文件放进去,每个文件靠近他属于的那个角如果一个文件包括两个主题,那么他在三角形的边上;如果一个文件三个主题都囊括了,那就在三角形的中间那么问题是,如何知道文件应该放在哪里呢?我们可以把LDA看成是一个生产文件的机器,不同的配置下,他会生成不同的文件最好的setting,可以生成最接近于原始文件的内容,这个setting对应的主题,就是原始文件最有可能的主题这个是LDA的概率图。原创 2024-03-23 17:15:34 · 874 阅读 · 0 评论 -
prompt,RAG,finetune,从零训练大模型对比
虽然微调可以用很少的数据完成(在某些情况下甚至大约或少于30个示例),但是设置微调并获得正确的可调参数值需要时间。这个过程从收集和管理数据开始,设计模型体系结构,并使用不同的建模方法进行实验,以获得特定用例的最佳模型。基础模型对提示的措辞非常敏感,改变一个词甚至一个动词有时会产生完全不同的反应。因为数据和输入的任何更改都需要另一个微调周期,这可能非常复杂且耗时。可以独立地更改嵌入模型、向量存储和LLM,而对其他组件的影响最小。它需要大量的迭代开发来获得具有正确技术和业务结果的最佳模型。原创 2024-03-14 21:35:43 · 974 阅读 · 0 评论 -
吴恩达prompt 笔记2:迭代提示开发(Iterative Prompt Develelopment)
准备代码和之前的一样,就不加注释了,详情见: 大模型笔记:吴恩达 ChatGPT Prompt Engineering for Developers(1) prompt的基本原则和策略-CSDN博客2 举例:根据货物单,生成一个货品描述2.0 货物单:2.1 prompt 版本12.2 prompt 版本2:限制 生成文本的长度+ Use at most 50 words.2.3 prompt 版本3:着重在听众需要的信息上+The description is原创 2024-03-14 13:45:27 · 1164 阅读 · 0 评论 -
大模型笔记:幻觉 hallucination
举个例子就是,即使现在的chatgpt-4,你问他一些有确切答案的问题,他也会“说胡话”看起来语法语义上没什么问题,但那个赛季上港是21胜5平4负积68分(数据来自懂球帝)原创 2024-03-09 21:38:55 · 702 阅读 · 2 评论 -
大模型笔记:最少到最多提示过程 (Least to Most prompting, LtM)
进一步发展维链提示过程 (CoT prompting)第一阶段:向语言模型提出查询,将问题分解成子问题。第二阶段:再次向语言模型提出查询,逐个解决这些子问题。解决第二个子问题的答案建立在第一个子问题的答案之上。原始问题被附加在最后作为最终的子问题。原创 2024-03-07 23:11:52 · 637 阅读 · 0 评论 -
大模型笔记:RAG(Retrieval Augmented Generation,检索增强生成)
将大规模语言模型(LLM)与来自外部知识源的检索相结合,以改进大模型的问答能力核心手段是利用外挂于LLM的知识数据库(通常使用向量数据库)存储未在训练数据集中出现的新数据、领域数据等。原创 2024-03-04 16:15:56 · 1719 阅读 · 0 评论 -
机器学习笔记:地理加权回归(GWR)
地理加权回归(Geographically Weighted Regression,GWR)是传统回归分析的扩展。适用于研究对象的数据在空间上呈现出显著的地理差异性。允许模型参数随空间位置的变化而变化,从而更好地捕捉和解释空间数据的局部特征。原创 2024-01-23 22:07:11 · 2399 阅读 · 0 评论 -
半监督学习笔记:self-training
自训练需要迭代多次,且几乎所有的发现高置信度无标记样本的方法都需要排序置信度值,排序过程增加了计算时间,所以计算时间会较长。原创 2024-01-22 15:12:15 · 468 阅读 · 0 评论 -
深度学习笔记:灾难性遗忘
【ICML2018】中提到,神经网络的所有的极小值都是连通在一起的;同时给出了如何从一个极小值找到一条通路连到另一个极小值的算法。——>从原始任务的某个极小值出发,在优化新任务的时候。,就可以保证原始任务不受影响了。原创 2024-01-22 12:36:05 · 1395 阅读 · 0 评论 -
时间序列笔记:SAX(符号集合近似)时间序列表征/论文笔记 A Symbolic Representation of Time Series, with Implications for Stream
将时间序列转换为字符。原创 2024-01-09 16:31:55 · 695 阅读 · 0 评论 -
机器学习笔记:时间序列异常检测
给定输入时间序列,异常值是时间戳值其中观测值与该时间序列的期望值不同。原创 2024-01-07 13:17:49 · 1677 阅读 · 0 评论 -
机器学习笔记:支持向量机回归SVR
主要思路类似于和SVM的区别主要有解法和SVM区别不大,也是KKT。原创 2023-12-20 20:43:58 · 1204 阅读 · 0 评论 -
聚类笔记:聚类算法评估指标
这些评估方法,如k-means聚类都是基于点之间的距离进行优化的,而那些基于距离的内部评估方法就会过度的赞誉这些生成的聚类结果——>这些内部评估方法是判定一个算法要优于另一个。原创 2023-12-14 23:28:10 · 1354 阅读 · 0 评论 -
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
【代码】机器学习笔记:linear scaling learning rate。原创 2023-12-13 23:17:59 · 982 阅读 · 1 评论 -
算法笔记:OPTICS 聚类
换句话说,如果x不是核心点,那么cd(x)就没有意义。原创 2023-11-24 16:07:04 · 2562 阅读 · 0 评论 -
机器学习/sklearn笔记:MeanShift
如果为true,则所有点都被聚类,即使是那些不在任何核内的孤儿点也一样。孤儿被分配到最近的核。对新样本进行标记是通过找到给定样本的最近质心来执行的。如果为false,则孤儿的聚类标签为-1。原创 2023-11-23 21:53:41 · 1606 阅读 · 0 评论 -
聚类笔记/sklearn笔记:Affinity Propagation亲和力传播
euclidean’使用点之间的负平方欧几里得距离。{‘euclidean’, ‘precomputed’},默认为‘euclidean’一般使用负的欧式距离,所以 S(i,j) 越大,表示两个点距离越近,相似度也就越高。array-like形状为(n_samples,)或浮点数,默认为None。每个点的偏好 - 具有较大偏好值的点更有可能被选择为典型样本。如果没有传递偏好作为参数,它们将被设置为输入相似度的中值。估计的簇数量没有变化的迭代次数,达到该次数则停止收敛。int,默认为200。原创 2023-11-23 20:55:12 · 2456 阅读 · 1 评论 -
机器学习/sklearn 笔记:K-means,kmeans++,MiniBatchKMeans,二分Kmeans
indices:形状为(n_clusters,) 在数据数组X中选择的中心的索引位置。对于给定的索引和中心,X[index] = center。centers:形状为(n_clusters, n_features) ,k-means的初始中心。sample_weight 是X中每个观测的权重。如果为None,则所有观测都被赋予相等的权重。样本到最近簇中心的平方距离之和,如果提供了样本权重,则按样本权重加权。(也就是KMeans里面fit的内容)类似于使用k_means++来进行。用来选择初始种子的数据。原创 2023-11-22 21:42:12 · 2203 阅读 · 0 评论 -
机器学习笔记(伪标签)/论文笔记 Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neu
论文中从分类边界应位于低密度区域、熵最小化两个角度说明了原因。(DAE应该是去噪自编码器?原创 2023-11-16 09:38:01 · 574 阅读 · 0 评论 -
机器学习笔记:RNN值Teacher Forcing
p可以随着训练的Epoch 进行衰减:Exponential Decay, Inverse Sigmoid decay 和 Linear decay。即使前一个预测不准确,网络也可以在准确的数据指导下继续学习。原创 2023-11-03 15:45:59 · 574 阅读 · 1 评论 -
机器学习笔记:逆置换
pinvpi。原创 2023-10-26 11:58:40 · 865 阅读 · 0 评论 -
GAN笔记:利普希茨连续(Lipschitz continuity)
WGAN通过使用Wasserstein距离来度量生成数据和真实数据之间的差异,从而解决了原始GAN中的训练不稳定问题。为了近似Wasserstein距离,WGAN要求鉴别器是1-Lipschitz连续的,即利普希茨常数为1。原创 2023-09-25 09:51:08 · 1722 阅读 · 0 评论 -
机器学习笔记:adaBoost
1 介绍AdaBoost(Adaptive Boosting)是一种集成学习方法,它的目标是将多个弱分类器组合成一个强分类器 通过反复修改训练数据的权重,使得之前分类错误的样本在后续的分类器中得到更多的关注 每一轮中,都会增加一个新的弱分类器,直到达到某个预定的错误率或者达到预定的最大迭代次数 2 详细算法介绍原创 2023-09-23 14:15:31 · 252 阅读 · 0 评论 -
机器学习笔记:Huber Loss & smooth L1 loss
【代码】机器学习笔记:Huber Loss。原创 2023-09-23 08:06:59 · 1061 阅读 · 0 评论 -
机器学习笔记:seq2seq & attentioned seq2seq
hj是encoder每个元素的隐状态,αij是加权系数。st-1是decoder t-1位置的输出。原创 2023-09-22 20:05:20 · 206 阅读 · 1 评论 -
机器学习笔记:轨迹驻留点 staypoint
较小的地理区域内移动距离低于某个阈值。原创 2023-09-06 22:09:01 · 755 阅读 · 0 评论 -
知识图谱笔记:TransH
同一个实体在不同关系中的意义不同,同时不同实体,在同一关系中的意义,也可以相同。原创 2023-09-02 03:58:13 · 483 阅读 · 0 评论 -
知识图谱笔记:TransE
1 知识图谱介绍一条知识图谱可以表示为一个三元组(sub,rel,obj)。 举个例子:小明的爸爸是大明,表示成三元组是(小明,爸爸,大明)。 前者是主体,中间是关系,后者是客体。 主体和客体统称为实体(entity)。 关系有一个属性,不可逆,也就是说主体和客体不能颠倒过来。 知识图谱的集合,链接起来成为一个图(graph) 每个节点是一个一个实体 每条边是一个关系,或者说是一个事实(fact) 有向图,主体指向客体。 正式地,使用(h,r,t)来表示三元组原创 2023-09-02 01:29:03 · 336 阅读 · 0 评论