![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 51
huaweimember
这个作者很懒,什么都没留下…
展开
-
《统计自然语言处理基础》笔记(2)语义消歧方法总结
语义消歧 可以看作分类问题。一个词W有K个含义,对W消歧 就是确定W在特定句子中究竟使用了哪一个含义,即把W分到K类中的一个。分类的依据则是和W邻近的词,即W的上下文C。歧义可以分为两类:一类是词的语义有多种,如“bank”,可以是银行,也可以是河岸;另一类是词本身的词性也是多样的,如predicate,既能作为名字,也能作为动词。对于前者,可能需要与W相隔较远的其他词参与消歧,而对于后原创 2014-03-24 21:51:03 · 4242 阅读 · 0 评论 -
《统计自然语言处理基础》笔记(1)固定搭配词组/习语 识别方法
Chapter5固定搭配词组/习语 ,如:“饕”和“餮”,“虽然”和“但是”,以2元词组为例,常用识别方法:1. 统计2个词汇同时出现的频率,频率越大则越有可能是固定搭配;如”打“和”水“经常同时出现, 那么”打水”就是一个固定搭配或习语。 2. 如果对于两个词不相邻的情况,如“虽然”和“但是”之间肯定会有其他词,则不能用上述方法,这时需要考虑两个词的距离。 以”虽然原创 2014-03-22 17:59:22 · 1621 阅读 · 0 评论 -
《统计自然语言处理基础》笔记(3)词汇获取 之 简介
1.词汇获取的目的是补充词典(这里指用于机器学习的词典)的不足之处,由于词汇含义不断在新增和变化,词典无法全面及时地覆盖所有含义和用法,因此词汇获取对基于统计的自然语言处理非重要。之前介绍的固定搭配识别也是词汇获取的一种,除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义,选择倾向和语义相似性等(本书主要讲了这4种)。 2. 词汇系统的评价标准。最常用的两个指标是 精确率 和 召回原创 2014-03-30 13:36:22 · 1362 阅读 · 0 评论 -
《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素
1.为什么要词性标注词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类(又是分类…)。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的,革命既然不能一蹴而就,那就先瞄准简单可实现的目标,原创 2014-04-09 22:22:04 · 3556 阅读 · 0 评论 -
《统计自然语言处理基础》中文版翻译勘误表,持续更新
8.6 C 191 E 310“It is also importantto note that this type of study only gets at character strings thatare entirely missing from the dictionary” 8.6 C 192 E 311“It took a long原创 2014-05-13 11:58:16 · 1054 阅读 · 0 评论 -
构造NLP标注集的几个简便方法&随想
基于统计的NLP算法或模型的性能关键在于语料库,但带标注的语料库不容易获得。这里介绍几个构造训练集或测试集的简便方法,在没有足够标注集的情况下可以采用。1.词义消歧 用固定字符串替换多词。如,用词符串“8888”替换语料中出现的“屌丝”和“高富帅”,其中“8888”是歧义词,其含义可能为“屌丝”或“高富帅”,以此类推构造其他词汇,这样就得到了一个人工标注的歧义语料库。该方法可用于构造训练原创 2014-05-23 11:04:34 · 2081 阅读 · 0 评论