自然语言处理
文章平均质量分 83
continueOo
记录自己的学习之路
展开
-
统计自然语言处理学习(概论)
定义书中定义的统计自然语言处理由所有的自动语言处理的定量方法组成,包括概率模型,信息论,线性代数。代表自然语言处理中非符号化和非逻辑的工作。语言的非绝对性,需要利用统计观察来考察问题。个人思考因为生活中充满了不确定和不完整的信息,为了能和世界有效的相互作 用,我们需要处理这类信息,所以概率论和随机过程给我么一个可以处理不确定和不完整信息架构的量化框架 这里只是因为想到认知是随机的,所以推广到语言原创 2017-05-13 23:30:47 · 540 阅读 · 0 评论 -
统计自然语言处理(基于语料库的工作)
编程技巧文字编码采用将文字映射到数字的方法,我们把文字类型,每个类型都有一个特定的数字对应(这里类型指什么?),可以使用一个很大的哈希表来维护,如果把字数限制到65000或者更少,效率会特别高,因为用16比特的数字来保存这些数字。或者把他们当做哈希表李存储的规范形式字符串的地址。输出的时候相当方便,不需要从数字转化为文字,字符串就可以被打印出来。另外还有一些其他的结构解决方法。收集技术信息很多统计自原创 2017-05-31 20:48:09 · 1859 阅读 · 2 评论 -
统计自然语言处理(统计推理:稀疏数据集上的n元语法模型)
概述统计自然语言处理的目的就是针对自然语言领域进行统计推理。作为一个常用的统计估计的例子,我们将考察经典建模问题,即当前词预测下一个词。词汇预测任务是一项技术可以解决的简单明了的问题。Bins:构造等价类利用历史词汇预测词汇,我们构造这样一个模型。模型中所有历史都是前n-1个已经出现的词,那么我们就有一个(n-1)阶马尔可夫模型,或者称N元语法模型。随着n的增加和词表数量的增加,我们把数据划分到太多原创 2017-06-03 16:25:28 · 2197 阅读 · 0 评论 -
统计自然语言处理(词汇获取)
概述词汇获取的一般目的,通过考察大型文本语料库中词汇出现的模式,设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中,自然语言的新词和旧词新用法总是层出不穷,即使我们编辑了现有所有存在的词汇,过几天也会有新的出现,所以词汇获取在自然语言中则显得十分重要。本章包含4个部分:动词子范畴,附着歧义,选择倾向,词汇之间的语义相似性。可以看到之前谈到的原创 2017-06-17 11:03:53 · 1468 阅读 · 0 评论 -
统计自然语言处理(词法)
概念介绍 语法可分为词法和句法 词法 词法,即运用词语必须遵循的一般语法规则。所谓“一般语法规则”,即人们约定俗成并为人们广泛认可和应用的语言文字的规范。在《词语的运用》一讲中我们已经进过,词语是具有实在意义并能独立运用的最小的语言单位。因此,我们学习任何一种语言,都必须从学习词语开始,首先应该学一点词法的基本知识。接下来,我想择其要讲两个问题:词语的构词方式,词类和词的兼类。——百度文库 句原创 2017-05-31 21:07:52 · 873 阅读 · 0 评论 -
统计自然语言处理(概率上下文无关文法)
什么是语法解析在自然语言中,句子可以分为主谓宾等表示。人们说话的方式(即使是在酒后的胡言乱语)也存在一些结构和规则。语言学中的语法分析的目标就是努力分离出这些语法结构。词语之间绝非是简单的顺序关系,它必须是描述词语如何相联系的。语法解析中有两个主要的问题: 1.句子语法在计算机中的表达与储存方式。 2.语法解析算法。对于第一个问题,最近50年间,最主要的方法就是为每个句子构造一个树结构。举例如下原创 2017-06-03 13:53:06 · 6640 阅读 · 0 评论 -
统计学自然语言处理(语义消歧)
概述本书本章描述自然语言处理中消除歧义的问题,并介绍几种重要的语义消歧算法,描述他们的资源需求和算法性能。消歧我们应该能直观的想象到就是一句话可能有几个意思。但是落实到具体细节中,我认为主要分以下几种: 1.分词的消歧,这是很常见的一个例子(南京 市 长 江大桥) 2.多义词的具体词义 3.词性的判断 对于词性的判断可以看做一个词性标注的问题词性标注的话,我们通常考虑邻近上下文。相反,如果原创 2017-06-12 11:20:31 · 7899 阅读 · 0 评论 -
统计自然语言处理(马尔可夫模型)
目的1.了解什么马尔科夫模型的三个问题 ·状态概率的计算(前向算法) ·马尔科夫译码过程(维特比算法) ·马尔科夫参数求解(EM算法 前后向算法)隐马尔科夫模型(HMM)这里笔者假设大家大致了解马尔科夫模型,即马尔科夫链的节点状态只于前N个状态相关,现实生活中常常存在一些隐藏的内容,比如3种骰子的例子,图如下: https://www.cnblogs.com/skyme/p/4651331原创 2017-06-03 13:58:19 · 1597 阅读 · 0 评论 -
讲人话系列——企业中的文本分类
概述新型深度模型天天刷屏刷榜,模型日新月异,做算法的不免感到焦虑。发现自己看论文的速度已经赶不上他们发论文的速度了。在此启发下,想写一写自己工作的思考,面对一个领域,我们如何进行技术选型,这个系列我会结合着自己的工作,帮助大家选择一个好的Baseline模型。可能这也是我的困惑,大家模型介绍的欢天喜地,并没有指出哪些适合做baseline,到头还得自己一个一个试,希望我的经验能帮助大家节省一点点...原创 2019-04-15 20:29:17 · 433 阅读 · 0 评论