- 博客(87)
- 收藏
- 关注
原创 揭秘大模型持续学习的盲区
科技巨头们正斥资数十亿美元打造全自动的 AI Agent(智能体),期望它们能像人类员工一样,在解决新问题的过程中不断学习、积累经验。然而,一篇最新的学术论文《这篇论文不仅打破了业界对“全自动 AI 生态”的盲目乐观,还首次系统性地剖析了 AI 在持续学习(Continual Learning)过程中那些极其反直觉的失败模式。
2026-06-03 23:22:07
306
原创 AI接管互联网 | CMU揭秘“代理化网络”的残酷真相
Agentic Web、多智能体协同、大语言模型、搜索引擎、信息检索你最近肯定遇到过这种令人抓狂的场景:你把一个新闻链接甩给你的AI助手,让它帮你总结一下深度报道,结果它冷冰冰地回复一句:“抱歉,该网站拒绝访问。这并非你的AI变笨了,而是整个互联网的底层逻辑正在发生剧变。过去几十年,互联网是一个开放的“万维网”(World Wide Web),搜索引擎像上帝一样爬取所有公开网页,为你提供一个中心化的链接列表。但如今,随着AI公司因抓取版权数据而面临高调的法律诉讼,各大内容平台纷纷竖起了高墙。
2026-06-03 23:12:46
332
原创 CMU Subword Modeling | 24 The Reconstruction Will Not Be Supervised
研究核心思路解决的问题半监督 autoencoder,利用 ρ(π(K))≈K 约束标注数据不足时仍能有效学习 π把 ρ 的学习转化为 Programming by Example得到可解释的音变规则,而非黑盒模型用音变归纳作为 LLM 纯搜索推理基准量化 LLM 在规则级联上的推理上限历史语言学的比较法在结构上就是一个 autoencoder 问题:编码器 π 从后代语言推断祖先形式,解码器 ρ 用音变规则从祖先形式生成后代形式,两者互为约束。
2026-04-22 22:43:24
370
原创 CMU Subword Modeling | 23 Syllables and Syllabification
几乎所有语言的语音都可以被分组为「音节 syllable」。有一个响度峰值峰值之前响度持平或上升峰值之后响度持平或下降直觉上就是「一个发音脉冲」。你对着任何一个词拍手打节拍,每拍一下就是一个音节。母语者几乎不需要思考就能做到这一点。概念核心内容跟 NLP 的关系音节结构语素边界倾向于落在音节边界上,好的 tokenizer 应该尊重音节结构响度层级低元音 > … > 清塞音可以用发音特征自动计算,是音节切分算法的基础自动音节切分在响度序列的低谷处画边界无需训练数据,可用于任何语言。
2026-04-22 22:15:43
502
原创 CMU Subword Modeling | 22 Phonological Similarity and Cognate Detection
同源词 cognate 是指从同一个祖先词演变而来的词对。Mortensen 用了一个非常好的例子:Ukhrul 和 Huishu,两种亲缘关系很近的藏缅语,都来自印度曼尼普尔邦的乌赫鲁尔地区。UkhrulHuishu含义ʃase厚kake爬riŋrɐŋ活着tsiktsoʔ黑tsatse吃ritrejʔ重pajpej跳/飞captsaʔ哭/泣层次先验方法数据驱动方法音素距离Hamming 距离 on 特征向量音素 embedding词距离。
2026-04-22 22:12:42
459
原创 CMU Subword Modeling | 20 Unicode—Logical and Visual Representations
概念核心内容对 NLP 的影响旧时代的编码混乱几十种互不兼容的 8-bit 编码多语言文本处理几乎不可能Unicode 码位每个字符一个唯一编号统一了字符表示,奠定了多语言 NLP 的基础UTF-8变长编码,1–4 字节,ASCII 兼容,自纠错互联网和绝大多数 NLP 工具的默认编码UTF-8 与 BPE 的交互高位字节共享导致 BPE 按码表列分组byte-level BPE 的行为受 Unicode 编排影响,不一定有语言学意义组合字符多个码位渲染成一个字形。
2026-04-20 07:49:55
356
原创 CMU Subword Modeling | 21 Articulatory Features
概念核心内容对 NLP/语音的意义自然类语音和功能双重共性定义的音素集合语音规则操作的基本单位发音特征二值特征,每个音素是一个特征向量一种手工设计的离散 embedding特征向量的规则书写用特征交集定义输入/输出/环境用最少描述捕捉最大规律性PanPhonIPA → 特征向量的自动转换工具G2P + PanPhon = 从文字到特征向量的完整 pipeline自监督模型中的涌现embedding 空间中出现发音特征的线性方向语言学特征不是人为发明,模型也能无监督发现。
2026-04-20 07:49:41
374
原创 CMU Subword Modeling | 17 Typology of Orthography
文字类型一个符号代表什么代表系统语音信息完整度G2P 难度语素文字 Logographic词/语素汉字、楔形文字极低——字形不编码发音必须查表辅音文字 Abjad辅音阿拉伯语、希伯来语低——短元音缺失需要语言模型音节文字 Syllabary音节切罗基语中等——音节级别完整相对简单元音附标 Abugida辅音+默认元音,其他元音附标天城文较高规则方法通常足够全音素文字 Alphabet音素拉丁字母、Hangul理论上最高取决于正字法透明度。
2026-04-19 10:19:34
344
原创 CMU Subword Modeling | 16 G2P and P2G
方法核心思路代表系统基于 Unicode 查表给每个字符分配 IPAUnitran基于规则的三段流水线预处理 → 映射 → 后处理Epitran学习字素和音素 n-gram 的统计对应Phonetisaurus 等seq2seq 架构学习映射多种实现小型 Transformer 做 seq2seq多种实现G2P 的本质问题是:文字到语音的映射在不同语言里有不同程度的不确定性。确定性高的部分用规则解决,不确定性高的部分用数据驱动方法解决。
2026-04-19 09:44:47
340
原创 CMU Subword Modeling | 15 Orthography versus IPA: Why We Need Both
歧义方向含义例子对 NLP 的影响音→字 多对多同一发音有多种拼法英语 maze/maize/Mays;中文 /pu˥˩/ 对应十几个汉字语音转文字需要语言模型消歧字→音 多对多同一拼写有多种读法英语 live/bow;阿拉伯语 abjad 不标短元音文字转语音需要从上下文恢复丢失信息跨语言不一致同一字母在不同语言里代表不同的音拉丁字母 ⟨x⟩ 有12种读法;同一个汉字在各方言中读音迥异跨语言任务必须用语言中立的表示文字到语音的映射是有损的、有歧义的、语言特定的。
2026-04-19 09:33:55
395
原创 CMU Subword Modeling | 14 Descriptive Phonetics
概念核心思想跟 NLP 的关系文字只是语言的一种编码方式tokenizer 切的是文字,不是语言本身物理声音 vs 功能单位phonemicization ≈ 信息压缩 / normalization用几个离散维度的交叉积定义语音空间类似于特征工程或 discrete embeddingVOT 是连续谱清浊不是二元开关,而是连续值语音模型需要学连续特征而非离散标签G2P从文字表示转到语音表示把输入转到更干净的表示空间,有助于下游任务。
2026-04-19 08:57:18
403
原创 CMU Subword Modeling | 13 Word and Paradigm Morphology
流派核心思想对应的 NLP 思路词 = morpheme 的拼接词 = base + 变换函数词 = paradigm 中的位置和关系embedding space 中的类比学习WP规则核心思想对应的 NLP 思路从 base 逐层生成decoder 的逐步生成过程格子间的类比关系最接近 neural model 实际学到的东西语言学理论和深度学习模型,是在用不同的语言描述同一件事。
2026-04-19 07:49:08
339
原创 315 曝光了GEO投毒,但「正确的GEO」应该长什么样?
摘要:315晚会曝光「GEO」概念引发热议,但GEO(生成式引擎优化)本质是AI搜索时代的合理需求。卡内基梅隆大学提出的AutoGEO系统证明,对抗式GEO虽能提升内容可见度,却会损害AI搜索质量。AutoGEO通过分析AI引擎偏好自动提取优化规则,在提升可见度50.99%的同时保持搜索质量,且1.7B小模型版本成本仅为API的0.71%。研究发现不同AI引擎偏好高度一致,但领域差异显著。该研究为GEO发展指明方向:合作式优化才是可持续策略,而非对抗式"投毒"。
2026-03-17 09:06:52
420
原创 CMU Subword Modeling | 12 Neural Approaches to Reinflection
Morphological Reinflection(形态再变形) 是自然语言处理中一个生成型任务:给定一个词(通常是某个词的某种形式)和目标的语法信息(例如动词时态、数、格等),模型要输出这个词在目标语法下的另一种形式。
2026-02-25 02:30:47
517
原创 ECCV | 注意力最后变成“背台词”?ASR 把 Channel Attention 训练完就焊死进模型里,无成本提升性能
你可能见过这样的线上事故:同一个视觉模型,离线评测分数漂亮,一上手机端或摄像头端就“掉帧”,工程师只好把注意力模块(attention module)一刀切掉。,它们对不同图片给出的权重,竟然会。如果这是真的,那我们在部署端为“动态注意力”付出的算力和延迟,究竟是在买什么?ECCV 这篇论文《把这个冲突推到台前:一边是业界对 attention 的依赖(提升精度、增强表达),一边是它在推理阶段的昂贵代价;。
2026-02-20 11:04:31
716
原创 “多选几个大模型”真的会变强吗?RouterEval 给了一个残酷前提:先把 router 练到够靠谱
你可能也遇到过:同一个输入,换个 LLM 结果就像开盲盒——有的秒懂,有的胡编。直觉上,“那我就多接几个模型,总能撞上会的那个”似乎很合理。特别是:论文在 Limitations 里指出,;候选太多可能带来部署挑战。这形成了一个很现实的张力:Routing LLMs 被讲成“规模化”的新范式,但可落地的甜点区,反而可能要求你。
2026-02-19 13:45:57
592
原创 CMU Subword Modeling | 11 Rules of realization and rules of referral
传统的形态学可能会把一个词看成一堆 Lego 砖块(morphemes)拼起来;构式形态学则像看 “模块化的 Lego 模式(schema)”:不是强制把每个词分成小块,而是更像:有些部件组合成了一种结构模式然后这个模式可以在不同词里反复“实例化(instance)”甚至可以表示语义和形式之间的对应关系(不是只是形式拼接)
2026-02-19 11:55:02
1023
原创 CMU Subword Modeling | 10 Grammatical Properties
在自然语言中,不同的词形(例如词尾变化)往往承载着语言的语法信息,这些信息可以看作是很多维度(dimensions)的组合。词性 (Part of speech)语气 (Mood)时态 (Tense)人称/数 (Person/Number)性别/名类 (Gender/Noun class)……这些都是语法属性。一个词形可能同时反映多个属性的值。把语法属性想象成每个词带着的标签(tag)集合。
2026-02-19 11:45:16
756
原创 MiniLongBench:长上下文评测到底要烧多少钱?他们把成本砍到 4.5%,还把 LongBench 榜单“复刻”到 0.97
《MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models》低成本长上下文理解评测基准,提出了一种高效压缩长上下文评测集的方法。针对现有LongBench评测成本过高的问题,作者通过表征学习和聚类技术,将评测成本降低至4.5%,同时保持与原始评测0.97的排名相关性。实验证明,MiniLongBench在60+模型上能准确反映模型真实能力排名,为长上下文研究提供了经济高效的评测方案。
2026-02-17 09:02:42
1375
原创 [WACV‘26] 不用给每一帧“打关键点”,也能做出可动画的3D狗:4D-Animal 把成本从“人工标注”转移到“密集线索 + 工具链”
你随手拍一段狗在客厅里跑来跑去的视频:镜头晃、毛发纹理复杂、姿态夸张、还动不动被沙发遮住。你当然希望系统直接吐出一只“能动的 3D 狗”——能换视角、能贴纹理、能做动画。可现实往往是:先别急,(左前爪、右后膝、尾巴尖……)。。代价也同样现实:标注负担下降,pipeline 依赖变重。
2026-02-16 10:00:28
732
原创 谁给了 AI “上帝模式”?4万个 Agent Skills 背后的疯狂、泡沫与隐患
在深入数据之前,我们需要先理解什么是。对于计算机专业的学生来说,你可以这样理解:如果 LLM 是操作系统(OS),那么 Agent Skill 就是应用程序(App)。在没有 Skill 之前,AI 只能生成文本;有了 Skill,AI 就能执行特定的程序逻辑、调用外部工具或 API。元数据 (Metadata):类似于 API 的签名(Signature),定义技能的名称和描述,用于 AI 在海量技能中进行语义检索(Discovery)。指令逻辑 (Instructions)
2026-02-16 08:43:16
1134
原创 CMU Subword Modeling | 09 Lexemes, or What Dictionaries Know about Morphology
通俗理解:Lexeme 就是词的“家族”。一个 lexeme 是一组意义相同但形式不同的 word forms 的集合。这解决了一个问题:我们为什么在字典里找不到的独立条目?因为字典记录的是(抽象意义单元)的 lemma(词典形式),而不是所有可能的 word forms。
2026-02-14 10:24:48
715
原创 CMU Subword Modeling | 08 Non-Concatenative Morphological Processes
在之前的章节我们看到,大部分词构造是通过实现的:词素按顺序串联(prefix、suffix、compounding)组成词。例如:walk + edwalkedteach + erteacher这些都是线性、顺序的叠加(concatenate)。则不是这样。它是指:词形构造不是靠简单串联 morphemes(词素),而是靠来形成新的词义或语法形式。) 这种现象在很多语言中都存在,尤其是像里的阿拉伯语和希伯来语非常典型。
2026-02-14 10:24:26
1166
原创 CMU Subword Modeling | 07 Allomorphy
Signified(意义)保持相同Signifier(表现形式)发生变化这种变化是可预测的/遵循规则的换句话说:下层意义不变,但形式随环境规则改变 → 就是 allomorphy。
2026-02-14 10:24:09
864
原创 CMU Subword Modeling | 06 Computational Approaches to Morphological Segmentation and Tokenization
这次课主要讲,它们是目前 NLP 系统中做最常用的技术:Byte-Pair Encoding, Wordpiece, Unigram tokenization, SentencePiece, Morfessor (
2026-02-14 10:23:54
834
原创 CMU Subword Modeling | 05 Morphotactics, Affix Ordering, Mirror, and Relevance Principle
名称核心意思为什么重要morpheme 组合规则 / 序列限制确保词缀组合合法词缀顺序不是随意,而是类型 + 语义约束的结果语义 / 语法一致性表面顺序反映深层结构语言规则结构化理解相关性高的 morph category 更接近词根功能导向的组合顺序Morphotactics 不是简单的“词素堆叠”,它反映了语言内部的组合规则、功能优先级和语法层次,是让 subword tokenization 更贴近语言真实结构的关键。维基百科。
2026-02-13 02:50:25
1012
原创 CMU Subword Modeling | 04 Inflection, Derivation, and Compounding
语言构造新词或词形主要有三种策略:Inflection, Derivation, and Compounding。那么这三种核心形态学(Morphology)过程是什么?
2026-02-13 02:40:17
693
原创 CMU Subword Modeling | 03 Productivity and Generalization
也就是说,我们不只是看 一个词怎么表示,我们关心 一个模式能不能“生”出新词。
2026-02-13 02:30:01
778
原创 CMU Subword Modeling | 02 Signs, Minimal Signs, and Compositionality
在自然语言处理里,我们希望模型真正“理解”语言,而不仅仅是把字符拼凑在一起。为此,我们要理解一个最基础的概念。这个想法来自这意味着,。SignifierSignifiedSign这和 NLP 的 tokenization(分词)有一个关键关联:如果我们把词拆成一些没有意义的碎片(例如随意的字母组合),那就不是,模型也学不到真正的语义。
2026-02-13 02:16:53
605
原创 CMU Subword Modeling | 01 Things Smaller than Words
传统 Word-Level Token太大颗粒太小颗粒适中“刚好”数据稀疏性大语义太弱语义 + 稳健OOV 难处理容易处理很好处理Subword modeling 就是让我们在 NLP 建模中找到一个既不大也不小、语义信息富、有泛化能力的 Token 粒度。这让机器学习语言的时候既高效又更稳健。
2026-02-13 02:09:37
905
原创 一口气读懂 Agent Skills:40,000+ Claude Skills 背后的生态、机会与风险
从爆发式增长规律、全维度功能分类到多等级安全审计,这份数据驱动的研究,清晰呈现 Agent Skills 的社区生态和发展现状,既为技术落地研发、搭建平台提供了硬核量化参考,也让入门者能清晰看懂这一领域的真实全貌。
2026-02-09 00:44:50
922
原创 [ICLR 2026] 一文读懂 AutoGEO:生成式搜索引擎优化(GEO)的自动化解决方案
生成式搜索流量密码被破解!AutoGEO 框架自动学习 ChatGPT/Google AI 偏好规则,无需人工试错。API 版零训练直接用,轻量版成本仅 0.0071 倍,曝光率狂提 35.99% 还不影响回答质量。跨领域通用 + 开源可用,技术人必看的 GEO 落地方案~
2026-02-01 02:01:41
1047
原创 解决 多层跳板机情况下,ssh可以成功连但是VSCode失败
检查了半天ssh key以及报错信息,最后灵光一闪,打开自己笔记本电脑 VSCode 连接,你猜怎么着!成功,但是用 VSCode 如下配置连接失败?同时,VSCode 连接。
2025-01-16 15:11:53
494
原创 PyTorch3D 可视化
PyTorch3D是非常好用的3D工具库。但是PyTorch3D对于可用于debug(例如调整cameras参数)的可视化工具并没有进行系统的介绍。这篇文章主要是想介绍我觉得非常使用的PyTorch3D可视化工具。
2024-12-14 22:10:59
1157
1
原创 CVPR | Let‘s Think Outside the Box: Exploring Leap-of-Thought in LLM with Creative Humor Generation
大喜利”本来是指一系列日本传统戏剧游戏,随着时代的快速发展。现代的“大喜利”,目前一般是指一种叫Tonchi (頓智)的游戏,通常以游戏节目或智力问答节目的形式呈现,可以参考B站的日本著名节目IPPON大獎賽 (视频链接)。玩家被提供各种多模态内容,可以是简单的问题、随机图像等,然后提示玩家想出幽默的、有创意的反应,以达到令人惊讶的喜剧效果,如下图所示的例子。例子1) 在第一个“图文到文”的例子中,玩家要求阅读图像,和上面对应的文字,尝试想出一段文字填入对应的“问号?
2024-04-14 15:33:33
1770
转载 SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
一般来说,如果是人类使用stable diffusion这样的模型时,写出来的prompt是接近自然语言(simple prompt),而不是一些复杂的甚至是特定格式的“咒语”(complex prompt)。因此一种直觉的想法是:如何将大语言模型的语义能力迁移到预训练文本编码器如CLIP中,以减缓图文不匹配的问题?本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。
2023-08-22 13:28:22
553
转载 Python自然语言处理资料库
1、LTP - 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。2、NLPIR汉语分词系统 - 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。3、结巴中文分词 - 支持三种分词模式:精确
2021-04-21 14:42:33
469
原创 SPSS-参数检验
1. 假设检验假设检验分为参数检验与非参数检验。(1) 参数检验:已知总体分布, 猜测总体的某参数(原假设H0,null hypothesis),用一组样本来检验这个假设, 是否正确 (即接受还是拒绝假设H0)。(2) 非参数检验:两总体的分布未知,检验两总体分布是否一致(用两组样本来检验);由样本分布推测其总体分布 (假设H0),用另一组样本来检验这个假设,是否正确。1.1. 正态总体下的参数假设检验前提:总体分布为正态分布。若计算出Z统计量的区间估计在(-k,k)之间,同时设定一个置
2021-04-21 10:04:44
9220
1
原创 TimeGAN_Time-series generative adversarial networks
论文:Time-series generative adversarial networks代码:https://github.com/jsyoon0823/TimeGAN现有的时间序列研究中,自回归模型明确地将时间序列模型分解为条件分布的乘积。这种方法在预测中表现优秀,但是无需添加外部条件就能获得新序列信息,作者考虑到这并不是一种“生成”方法。另一方面的研究是使用GAN,这种方法简单地应用标准的loss函数,可能不能捕捉序列之间的逐步依赖关系。因此作者将上述两种不同实现机制的方法结合在一起——时间序
2021-04-13 18:32:16
8684
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅