自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 断续重连报错在评论区

【代码】断续重连报错在评论区。

2023-12-07 15:40:39 115 5

原创 论文笔记:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

专家网络中隐层的大小为16。然而,当任务之间的相关性降低时,OMoE模型的性能明显下降,而对MMoE模型的影响很小。然而,直接研究任务关联性如何影响实际应用中的多任务模型是很困难的,因为在实际应用中,我们不能轻易改变任务之间的关联性并观察其影响。其次,虽然当任务相关性为1时,OMoE模型的性能方差与MMoE模型的性能方差相似,但当任务相关性降低到0.5时,OMoE的鲁棒性有明显下降。PathNet[17]是为处理不同的任务而设计的艺术性通用智能,它是一个巨大的神经网络,具有多个层和每个层中的多个子模块。

2023-08-31 20:03:47 157 1

原创 论文笔记:Multimodal Contrastive Learning with LIMoEthe Language-Image Mixture of Experts

*在这种不平衡的情况下,这将导致一种情况,即少数模式中的所有令牌都分配给单个专家,而该专家的容量已耗尽。例如,在我们的标准B/16设置中,**路由器可以通过完美平衡图像令牌而丢弃所有文本令牌,**将重要性损失[14]优化到其最小值的0.5%以内。该模型使用每个模态的线性层将固有数据维度投影到所需的宽度:对于文本,使用标准的one hot句子编码和学习词汇,对于图像,使用vit风格的基于patch的嵌入[13]。这是通过全局损失来解决的,它具有稳定的专家分配(C3)和持续的高成功率(A3, B3)。

2023-08-31 20:03:11 269

原创 论文探索:TUTEL Adaptive Mixture-of-Experts at Scale

在灵活的All-to-All之后,令牌立即被派发到一个合适的格式,以便进行后续的并行操作:每个GPU从All-to-All获得部分令牌的集合,可以以张量并行的方式与本地专家片进行计算。更糟糕的是,计算和通信之间的干扰使我们很难找到最优的流水线策略,如果我们只考虑每个单独的方面。接下来,两个All-to-All的输出被编程为,一旦它们之前对应的All-to-All完成,就被发送到计算流上执行专家计算,而专家计算的输出被再次编程为,一旦之前对应的专家计算完成,就被发送到通信流上执行第二个All-to-All。

2023-08-31 20:02:15 725

原创 论文阅读:TASK-CUSTOMIZED MASKED AUTOENCODER VIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

在本实验中,我们将 MoCE 与以下模型进行比较:(i) MAE,(ii) TokenMoE,(iii) SDR一种旨在减轻负迁移的任务定制模型,以及 (iv) SDR( ViT),它使用 ViT 架构重新实现 SDR。由于平均每个数据簇只有原始样本量的1/K的一部分,每个专家的训练时间也比其他密集建模的参数(如MSA参数(Riquelme等人,2021))短K倍,我们进一步采用蒸馏损失Ldistill,定义为整个网络和每个专家生成的特征之间的ℓ2距离。上的差异比在语义上的差异更大,参见图 1(b)。

2023-08-31 20:01:31 127

原创 论文阅读:DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation

此外,如果将专家并行性设置为模型中专家数量最少,那么对于专家数量较多的MoE层,每个GPU需要多个专家,由于每个专家的批处理大小减少,导致效率低下,并且每个GPU所需的内存增加。请注意,每个GPU现在可以在每个MoE层训练1个专家,而不管其中的专家数量如何,这不会减少每个专家的输入令牌,也不会导致负载不平衡,也不会增加每个GPU的内存需求。从密集的 MoE 模型到稀疏的 MoE 模型的转变可以在大型模型领域开辟一条通往新方向的道路,在这个领域,用更少的资源部署更高质量的模型变得更加可能。

2023-08-31 19:59:42 1229

原创 论文阅读:From Sparse to Soft Mixtures of Experts

有一些MOE方法时对专家参数加权组合,这些方法也是可微的,但复杂度较高,1)它们必须对专家参数进行平均,当使用参数较多的专家时,这可能会成为时间和/或内存的瓶颈;虽然我们的调度和组合权重的计算方式与这些方法类似,但我们的目标并不是减少序列长度(虽然这是有可能的),实际上,我们是在每个软 MoE 层结束时,用组合权重对专家输出进行加权后,与其他MOE作品一样,Soft MoE中的专家仅处理(组合)令牌的子集,从而以较低的推理成本实现更大的模型容量。对于软MOE来说也是如此,专家也可能是分散的。

2023-08-26 11:06:52 510

原创 论文阅读:SageFormer Series-Aware Graph-Enhanced Transformers for Multivariate Time Series Forecasting

相反,我们方法的 MAE 并没有随着系列数量的增长,表明我们设计的方法可以有效地利用数据集的低秩特征。全局标记的加入使 SageFormer 不仅能学习单个序列的时间模式,还能关注序列之间的依赖关系,从而增强多样性并克服序列独立的局限性。Θ是c*c维的,可以理解成表述序列间相关关系的一个权重矩阵,E是序列的节点嵌入,是通过随机初始化的 E∈R N×C 来学习的,两者相乘后过一个非线性,可以理解为考虑依赖关系后的隐向量,计算邻接矩阵的非对称信息,表示单项依赖关系,取topk建立连边。的变换器编码器流水线。

2023-08-26 11:06:12 593 1

原创 l论文阅读:Robust Multimodal Failure Detection for Microservice Systems

*然而,这些工作中缺少对实例至关重要的trace,因此,在我们的场景中检测异常时,它们无法实现最佳性能。然而,由于指标异常检测方法**仅利用指标数据来检测系统中的异常和可能的故障,因此当故障未在指标上表现出来时,**它们将无法向操作员发出警报。基于深度学习的方法学习正常执行的日志模式(例如顺序特征、定量关系),并在日志序列的模式偏离学习的正常模式时确定异常[5,22,41]。之后,我们采用图注意力网络(GAT)[36],为邻居节点分配不同的权重并学习多模态数据的动态模式,以优化图并过滤重要节点信息。

2023-07-25 21:13:09 438

原创 论文阅读:Actionable and Interpretable Fault Localization for Recurring Failures in Online Service System

因此,C 中的每个故障类别仅包含一个故障单元。在这项工作中,我们的目标是**在给定最新的 FDG 和发生故障时的相应度量值的情况下推荐故障故障单元。由于 D´ej`aVu 模型是通过历史故障进行训练的,因此可以直接通过寻找它从哪些历史故障中学习推荐有故障的故障单元来解释它如何诊断给定故障→比较输入故障与基于聚合特征提取的每个历史故障。对于即将到来的故障,经过训练的模型在线建议故障发生的位置(即故障组件)以及发生哪种故障(即指示性指标组)(因此是可操作的),并在全局和本地进一步解释(因此可以解释)。

2023-05-03 20:59:46 191 1

原创 Multivariate Time-series Anomaly Detection via Graph Attention Network

第一类方法通过应用单变量模型[1],[6]-[8]来分析每个单独的时间序列,而第二类方法则将多个时间序列建模为一个统一的实体[2],[4],[9]-[13]。从另一个角度来看,现有的异常检测模型也可以分为两种范式,即基于预测的模型[2],[14],[15]和基于重建的模型[4],[11]-[13]。广泛的分析为模型提供了更多的见解,并验证了所提议的体系结构的有效性。此外,我们的方法联合优化了基于预测的模型和基于重建的模型,通过将单个时间戳预测和整个时间序列的重建相结合,获得了更好的时间序列表示。

2023-03-21 21:28:35 641 2

原创 论文阅读:Few-Shot Representation Learning for Out-Of-Vocabulary Words

该训练方案可以模拟在推理过程中出现OOV词的真实场景,而在我们的例子中,我们可以访问他们的甲骨文嵌入作为学习目标**。在每一片段中,我们从St中随机抽取K个句子,将这些句子中的wt进行掩码,构建一个掩码支持上下文集SKt = {St, K}Kk=1,其中St, K表示目标词wt的第K个掩码句子。为了解决这个问题,我们建议采用模型不可知的元学习(MAML)来辅助预训练HiCE模型的快速和健壮的适应,这使得HiCE可以从一个有希望的初始化开始,更好地推断OOV词在新领域中的嵌入。我们的解决方案是学习一个。

2023-03-21 21:27:59 86

原创 Spatial-Temporal Identity A Simple yet Effective Baseline for Multivariate Time Series Forecasting

以P×N的序列预测F×N的序列,三个嵌入向量分别是时间序列数量、一天内的时间戳数量(短期嵌入向量)、一周的天数(长期嵌入向量)。3 模型结构fig2:STID由一个嵌入层、多个MLP层和一个回归层组成。,Fc是全连接层。嵌入层对原始历史时间序列进行转换公式1然后隐藏层向量(1×D)和空间嵌入、一天内的时间嵌入、一周内的时间嵌入拼接起来,形成4D的Zi表示具有空间和时间特征的隐藏表示。空间和时间特征是随机初始化的可训练参数,时间特征在一天中的同一时间和一周中的同一时间段中共享。

2023-03-21 21:21:59 416

原创 论文阅读:Deep Learning for Anomaly Detection: A Review

Deep Learning for Anomaly Detection: A Review

2022-09-01 10:52:20 932 1

原创 论文阅读:Leveraging Website Popularity Differences to Identify Performance Anomalies

Leveraging Website Popularity Differences to Identify Performance Anomalies利用网站受欢迎程度的差异来识别性能异常Web 性能异常检测的现有方法主要集中在流行的网站上(例如,每分钟访问数万次)在更广泛的网站中,每小时的访问量差异很大,有些网站每小时的访问量很少。访问率低会造成测量差距和噪音,从而阻碍现有方法的使用。WMF,这是一种 Web 性能异常检测方法,适用于具有高度可变测量量的一系列网站。WMF 使用矩阵分解来挖掘从网

2022-05-12 16:45:50 106

原创 论文阅读:CTF:Anomaly Detection in High-Dimensional Time Series with Coarse-to-Fine Model Transfer

CTF:在高维时间序列异常检测CTF:Anomaly Detection in High-DimensionalTime Series with Coarse-to-Fine Model Transfer问题:监控数据的维度爆炸问题(机器规模大、关键性能指标多、监控查询频繁)给现有算法带来了可扩展性问题。解决:基于从粗到细的模型转移框架 CTFcoarse-to-fine model transfer based framework CTFCTF 预训练一个粗粒度模型,使用该模型将每台机器的特征

2022-05-12 16:45:17 407

原创 论文阅读:SketchFlowPer-Flow Systematic Sampling Using

SketchFlow: Per-Flow Systematic Sampling Using Sketch Saturation EventSketchFlow:使用草图饱和事件的每流系统采样采样可以减少系统开销NetFlow 使用本地表来计算每个流的记录,sFlow 会定期将收集到的数据包头通过网络发送到收集服务器。存在问题:简单随机抽样 (SRS) 由于其简单性而在实践中得到了广泛的应用。但是,SRS 为不同的细粒度流(由 5 元组定义)提供了不统一的采样率,因为它通过聚合数据流(由交换机端口或

2022-05-12 16:44:13 72

原创 论文阅读:SketchFlowPer-Flow Systematic Sampling Using

SketchFlow: Per-Flow Systematic Sampling Using Sketch Saturation EventSketchFlow:使用草图饱和事件的每流系统采样采样可以减少系统开销NetFlow 使用本地表来计算每个流的记录,sFlow 会定期将收集到的数据包头通过网络发送到收集服务器。存在问题:简单随机抽样 (SRS) 由于其简单性而在实践中得到了广泛的应用。但是,SRS 为不同的细粒度流(由 5 元组定义)提供了不统一的采样率,因为它通过聚合数据流(由交换机端口或

2022-05-06 10:08:19 98

原创 论文阅读:Cyber-security research

先验知识:ISP:因特网服务提供商 ( ISP )是为个人或企业提供访问NetFlow是一种网络监测功能,可以收集进入及离开网络界面的IP封包的数量及资讯,最早由思科公司研发,应用在路由器及交换器等产品上。经由分析Netflow收集到的资讯,网络管理人员可以知道封包的来源及目的地,网络服务的种类,以及造成网络拥塞的原因摘要为什么做:ISP通过检测与其用户相关的恶意网络活动可以获利问题:不清楚 ISP 拥有什么样的流量数据可用于网络安全研究,以及可以在哪些法律条件下使用。本文:(欧洲)可用数据源—

2022-05-06 10:07:35 230

原创 AS-Path Prepending there is no rose without a thorn

AS-Path Prepending: there is no rose without a thornAS-Path Prepending:没有不带刺的玫瑰ITE:宣布路线的过程,例如,最大化收入或最小化拥堵AS Path Prepending (ASPP) :一种易于使用且广为人知的 ITE 技术,路由手册将其显示为影响其他 AS 路由决策的首批替代方案之一。ASPP 包括膨胀 BGP AS 路径。由于 AS 路径的长度是 BGP 最佳路径选择中的第二个关键点,因此 ASPP 可以将流量引导到其

2022-05-06 10:07:07 286

原创 论文阅读:Time2Graph+: Bridging Time Series and Graph Representation Learning via Multiple Attentions

Time2Graph+: Bridging Time Series and Graph Representation Learning via Multiple AttentionsTime2Graph+:通过多注意力连接时间序列和图表示学习现状:基于shapelet的模型旨在提取具有代表性的子序列,并可以为下游任务提供解释性理解。问题:对shapelet的提取忽略了时间因素,以及进化特征。提出:一种连接时间序列表示学习与图建模的框架时间感知:时间注意力机制演进:引入将时间序列数据转换为 sha

2022-05-06 10:06:04 489 1

原创 论文阅读:time2graph

在以往的文献中,shapelets 在分类任务中提供了可解释 性。shapelet是什么shapelet其实就是一段时间序列数据中的某个子序列,这个子序列是这段时间序列数据的最显著的特点(显然,shapelet和趋势,周期分量一样,也是时序数据本身的一种特别的分量)参考:Time Series Shapelets: A New Primitive for Data Mining问题:大多数现有作品忽略了不同时间片的不同代表能力,以及(更重要的是)shapelets 的演变模式。本文:通过设计两级时

2022-05-06 10:05:22 458

原创 论文阅读:**CTF: Anomaly Detection in High-Dimensional Time Series with Coarse-to-Fine Model Transfer

CTF:在高维时间序列异常检测CTF:Anomaly Detection in High-DimensionalTime Series with Coarse-to-Fine Model Transfer问题:监控数据的维度爆炸问题(机器规模大、关键性能指标多、监控查询频繁)给现有算法带来了可扩展性问题。解决:基于从粗到细的模型转移框架 CTFcoarse-to-fine model transfer based framework CTFCTF 预训练一个粗粒度模型,使用该模型将每台机器的特征

2022-05-06 10:04:30 134

原创 Enriching Word Embeddings for Patent Retrieval with Global Context

利用全局上下文丰富**专利检索词**嵌入

2021-12-04 20:43:06 473

原创 论文笔记:MicroRCA: Root Cause Localization of Performance Issues in Micro services

MicroRCA: Root Cause Localization of Performance Issues in Micro servicesMicroRCA通过将应用程序性能症状与相应的系统资源利用率关联起来,在不使用任何应用程序检测的情况下,实时推断根本原因。根因定位基于一个属性图,该图为跨服务和机器的异常传播建模。1 介绍:利用MSA,应用程序被分解为具有轻量级交互的自包含和独立部署的服务需要快速检测性能问题并找到根本原因,但是很难。why:1.复杂的依赖性:服务的数量通常可以是数百

2021-09-26 21:42:44 839

原创 Unsupervised Question Answering by Cloze Translation 基于完形填空转换的无监督问答

Unsupervised Question Answering by Cloze Translation(基于完形填空转换的无监督问答)Facebook research,开源,数据集为SQuAD1.介绍当前问题:抽取式问答需要大量训练数据,但对于一个新领域或者新的语种,收集训练集是需要大量人类和物力的。目标:不需要使用监督QA,就能够在给定文档后生成准确的问题,利用生成的问题训练一个QA系统。解决方法:先用无监督方法生成文本内容(context)、问题(question)、答案(answer

2021-09-15 17:04:17 185 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除