谷歌推出RETVec-Gmail针对垃圾邮件和恶意电子邮件的新防御措施

最新推荐文章于 2024-05-29 09:45:51 发布

暂停营业1

最新推荐文章于 2024-05-29 09:45:51 发布

阅读量819

点赞数 21

分类专栏： HackNews转载文章标签：机器学习人工智能大数据

本文链接：https://blog.csdn.net/bunneykaka/article/details/134836664

版权

HackNews转载专栏收录该内容

9 篇文章 0 订阅

订阅专栏

谷歌推出了一种名为RETVec（弹性和高效文本矢量器的缩写）的新的多语言文本矢量器，以帮助检测Gmail中的垃圾邮件和恶意电子邮件等潜在有害内容。根据该项目在GitHub上的描述，“RETVec经过训练，能够抵御字符级别的操作，包括插入、删除、打字错误、同形符、LEET替换等”。“RETVec模型是在一种新型字符编码器的基础上训练的，该编码器可以有效地对所有UTF-8字符和单词进行编码”。

虽然Gmail和YouTube等大型平台依靠文本分类模型来发现网络钓鱼攻击、不当评论和骗局，但众所周知，威胁行为者会制定绕过这些防御措施的应对策略。据观察，他们诉诸于对抗性的文本操作，从使用同形符到填充关键字再到不可见的字符。RETVec可以开箱即用地处理100多种语言，旨在帮助构建更具弹性和效率的服务器端和设备上文本分类器，同时也更健壮，计算成本更低。矢量化是自然语言处理（NLP）中的一种方法，将单词或短语从词汇表映射到相应的数字表示，以便进行进一步的分析，如情感分析、文本分类和命名实体识别。

谷歌的Elie Bursztein和Marina Zhang指出：“由于其新颖的架构，RETVec可以开箱即用地处理每种语言和所有UTF-8字符，无需文本预处理，是设备、网络和大规模文本分类部署的理想候选者”。矢量器与Gmail的集成使垃圾邮件检测率比基线提高了38%，假阳性率降低了19.4%。它还将该模型的张量处理单元（TPU）使用率降低了83%。

使用RETVec训练的模型由于其紧凑的表示方式而表现出更快的推理速度。拥有更小的模型可以降低计算成本和延迟，这对大规模应用和设备模型至关重要。

期待你的关注，定不负所望

暂停营业1

关注

21
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
谷歌推出RETVec-Gmail针对垃圾邮件和恶意电子邮件的新防御措施

矢量化是自然语言处理（NLP）中的一种方法，将单词或短语从词汇表映射到相应的数字表示，以便进行进一步的分析，如情感分析、文本分类和命名实体识别。谷歌推出了一种名为RETVec（弹性和高效文本矢量器的缩写）的新的多语言文本矢量器，以帮助检测Gmail中的垃圾邮件和恶意电子邮件等潜在有害内容。谷歌的Elie Bursztein和Marina Zhang指出：“由于其新颖的架构，RETVec可以开箱即用地处理每种语言和所有UTF-8字符，无需文本预处理，是设备、网络和大规模文本分类部署的理想候选者”。
复制链接

扫一扫