![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp相关
文章平均质量分 82
qq924178473
这个作者很懒,什么都没留下…
展开
-
nlp-词向量-相关
一、词向量的表示方法:1、类似于Wordnet的语义词典2、one-hot二、现代NLP成功之处:使用上下文来表示单词,方法->共现矩阵,出现的问题:维度问题,解决方法:SVD降维原创 2016-09-21 11:58:30 · 285 阅读 · 0 评论 -
nlp-形式语言与自动机-ch10-统计机器翻译
1、基于规则的转换翻译方法:对源语言和目标语言都进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想。2、翻译过程分为三段:1)对输入文本进行分析,形成源语言抽象的内部表达;2)将源语言内部表达转换成抽象的目标语言内部表达;3)根据目标语言内部表达生成目标语言文本。3、优缺点:优点:可以较好地保持原文结构,产生的译文结构和源文结构关系密切,尤其对于语言现象已原创 2017-05-25 15:33:19 · 392 阅读 · 0 评论 -
nlp-形式语言与自动机-ch07-自动分词、命名实体识别与词性标注
1、汉语自动分词的基本问题:汉语自动分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记。困难:分词规范、歧义切分和未登录词的识别。2、两个基本问题:词是什么:词的抽象定义。什么是词:词的具体界定。困难的两个方面:单字词与词素之间的划界;词与短语(词组)的划界。3、交集型切分歧义:汉字串AJB称作交集型切分歧义,如果满足AJ、 JB同时为词(A、原创 2017-04-06 11:14:18 · 5399 阅读 · 0 评论 -
nlp-形式语言与自动机-ch09-词义消歧
1、词义消歧方法分为:监督的和无监督的。2、有监督的语义消歧方法:基于互信息的消歧方法:基本思路:对每个需要消歧的多义词寻找一个上下文特征,这个特征能够可靠地指示该多义词在特定上下文语境中使用的是哪种语义。3、有监督的语义消歧方法:基于贝叶斯分类器的消歧方法:基本思路:在双语语料库中多义词的翻译(语义)取决于该词所处的上下文语境c,4、基于义类辞典的消歧方法:基本思想:多义原创 2017-05-24 17:27:05 · 1922 阅读 · 0 评论 -
nlp-形式语言与自动机-ch08-句法分析
1、(空)2、(空)3、句法分析(syntactic parsing)是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构(syntactic structure)或句子中词汇之间的依存关系。 一般来说,句法分析并不是一个自然语言处理任务的最终目标,但是,它往往是实现最终目标的重要环节,甚至是关键环节。 4、句法分析分为句法结构分析(syntactic structure p原创 2017-04-24 11:01:50 · 2784 阅读 · 0 评论 -
nlp-形式语言与自动机-ch06-概率图模型
1、图模型的树形结构分类:a)动态贝叶斯网络(DBN):用于处理随时间变化的动态系统中的推断和预测问题。其中因马尔科夫模型(HMM)在语音识别、汉语自动粉刺与词性标注和统计机器防疫等若干语音语言处理任务中得到了广泛应用。卡尔曼滤波器则在信号处理领域有广泛的用途。b)马尔科夫网络又称马尔科夫随机场。马尔科夫网络下的条件随机场(CRF)广泛应用于自然语言处理中的序列标注、特原创 2017-04-01 11:05:47 · 1176 阅读 · 0 评论 -
nlp-形式语言与自动机-ch03
3.2.3形式语法的类型1.正则文法(3型文法):分为左线性文法和右线性文法左线性文法就是文法G的规则集P中所有的!!!!规则都满足如下形式:A->Bx,或A->x,其中A,B属于非终结符N,x属于终结符Σ。右线性文法就是文法G的规则集P中所有的!!!!规则都满足如下形式:A->xB,或A->x,其中A,B属于非终结符N,x属于终结符Σ。注意:若规则集中有看似不符合形式的,也可以通原创 2017-03-22 10:49:25 · 820 阅读 · 0 评论 -
nlp-形式语言与自动机-ch04-语料库与语言知识库
1、语料库语言学是研究什么的学问?研究自然语言机读文本(或称电子文本)的采集、存储、标注、检索、统计等方法的一门学问,其目的是通过对客观存在的大规模真实文本中的语言事实进行定量分析,为语言学研究或自然语言处理系统开发提供支持。2、语料库语言学研究内容:a)语料库的建设与编纂;b)语料库的加工和管理;c)语料库的应用,包括在语言学研究(言语、词汇和语义研究等)中的应用和在自然语言处理中的原创 2017-03-29 10:33:03 · 399 阅读 · 0 评论 -
隐马尔科夫模型——概率计算算法之——后向算法是什么样的?
在李航的《统计学习方法》一书中对该算法的定义:定义:给定隐马尔科夫模型λ,定义在时刻t状态为qi的条件下,从t+1到T的部分观测序列为的概率为后向概率,记做:观测序列概率的后向算法:输入:隐马尔科夫模型λ,观测序列O输出:观测序列概率分析:原创 2016-09-29 09:24:09 · 1693 阅读 · 0 评论 -
tensorflow里的word2vec_basic代码解析
1、前提是手动已经下载好text8.zip数据,使用def read_data(filename)这个函数去读取zip里面的数据,调用了f = zipfile.ZipFile(filename, 'r' ,zipfile.ZIP_DEFLATED)这个函数,在得到文件描述符f后,调用data = tf.compat.as_str(f.read(f.namelist()[0])).split()函数原创 2016-10-12 14:37:11 · 2478 阅读 · 0 评论 -
python-nlp-学到的一点东西
//2017/3/241、加载一些要用的文本:from nltk.book import *就是从NLTK的book模块加载所有的文本数据。2、词语索引视图:显示一个指定单词的所有的出现地方,并将它出现的上下文显示出来:text1.concordance('monstrous'),其中text1就是nltk.book里的数据,而monstrous就是要查看的单词。结果:***t原创 2017-03-24 15:46:59 · 2715 阅读 · 0 评论