自然语言处理
文章平均质量分 82
潜心修行的研究者
潜心修行
展开
-
情感分析概述
情感分析主要研究观点挖掘、倾向性分析等。一,为什么需要观点挖掘和倾向性分析文本信息主要包括两类:客观性事实主观性观点但是已有的文本分析方法主要侧重在客观性文本内容的分析和挖掘。二,什么是观点挖掘与倾向性分析观点挖掘与倾向性分析就是从海量数据中挖掘观点信息,并分析观点信息的倾向性。观点挖掘与倾向性分析的主要任务有:观点及倾向性识别:如情感识别。观点要素抽...原创 2018-06-16 15:51:19 · 7882 阅读 · 0 评论 -
文本自动摘要概述
一,文本摘要概述文本自动摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。代表系统有:密歇根大学的NewsInEssence。哥伦比亚大学的NewsBlaster。二,文本摘要分类三,文本摘要方法三种摘要方法抽取式摘要:直接从原文中抽取已有的句子组成摘要。压缩式摘要:抽取并简化原文中的重要句子构成文摘。理解式摘要:改...原创 2018-06-16 15:55:54 · 11774 阅读 · 5 评论 -
写给NLP研究者的编程指南
写给NLP研究者的变成指南(总结)基础:neural NLPpython(tensorflow、pytorch)good science将要学到的:how to write code in a way that makes your life easier!写研究代码主要有两种模式:写原型写组件一,写原型1. 如何快速地写代码使用一个框架核心:training ...原创 2018-11-24 14:54:48 · 605 阅读 · 0 评论 -
深度学习中的注意力机制(2017版)
转载自 张俊林博客原始地址 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ 转载 2018-12-01 11:35:02 · 2350 阅读 · 0 评论 -
词法分析与词性标注
词法分析与词性标注一,英语的形态分析单词识别形态分析形态分析的一般方法:查词典单词还原进入未登录词处理模块二,汉语自动分词概要1,汉语自动分词中的主要问题规范问题歧义切分字段处理交集型歧义组合型歧义未登录词的识别2,汉语自动分词的基本原则语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)语类无法由组合成分直接...原创 2019-05-24 10:41:14 · 1081 阅读 · 0 评论 -
句法分析
句法分析一,概述任务:句法分析的任务就是识别句子的句法结构。类型有:短语结构分析完全句法分析局部句法分析依存句法分析二,短语结构分析目标:实现高正确率、高鲁棒性、高速度的自动句法分析过程。困难:自然语言中存在大量的复杂的结构歧义。结构歧义中最常见的就是介词短语绑定歧义。基本方法:基于CFG规则的分析方法线图分析法CYK算法…基于PCFG的分析方法...原创 2019-05-24 10:43:38 · 1729 阅读 · 0 评论 -
语法理论
语法理论乔姆斯基提出的四种形式语法有明显的缺陷:过于泛化,生成能力太强。所以之后又提出了很多改进的语法!功能合一文法词汇功能语法广义结构语法树连接语法链语法一,功能合一文法采用复杂特征集来描述词、句法规则、语义信息,以及句子的结构功能。采用合一运算对复杂特征集进行运算。它是对短语结构语法的改进。复杂特征集:α(fi)=vi(i=1,...,n)\alpha(f_i)...原创 2019-05-24 10:52:35 · 1226 阅读 · 0 评论 -
信息抽取
信息抽取一,信息抽取概述信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取的主要任务有:实体识别与抽取实体消歧关系抽取事件抽取二,实体识别与抽取1,实体识别任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。两个子任务:实体边界识别和确定实体类型。特点:人名、地名、机...原创 2019-05-24 10:55:29 · 1622 阅读 · 0 评论 -
机器翻译
机器翻译一,机器翻译概论概念:机器翻译是用计算机把一种语言翻译成另一种语言的一门科学和技术。机器翻译的困难自然语言中普遍存在的歧义和未知现象。句法结构歧义、词汇歧义、语用歧义新的词汇、术语、结构和语义机器翻译不仅仅是字符串的转换。机器翻译的解不唯一,而且始终存在的人为的标准。基本翻译方法1,直接转换法2,基于规则的翻译方法步骤如下:对源语言句子进行词...原创 2019-05-24 11:00:04 · 2457 阅读 · 0 评论 -
问答系统
问答系统一,问答系统概述1,研究背景问答系统是下一代搜索引擎的基本形态。问答系统的定义:输入:自然语言的问句,而非关键词的组合。输出:直接答案,而非文档集合。2,发展历程图灵测试基于知识推理的问答系统:答案或者从知识库中检索得到,或者在知识库上经过推理得到。问答式检索系统:利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。社区问答系统基于知识库...原创 2019-05-24 11:01:37 · 4272 阅读 · 2 评论 -
EM算法的点滴
虽然EM算法只能保证找到局部最优,但应用地仍然十分广泛,而且十分有效。1,EM算法 for NB Model with Missing Labels2,EM算法的通用形式3,EM算法与一般的MLE的关系结合上图与下图即可看出两者的关系。 ...原创 2018-05-14 17:52:33 · 254 阅读 · 0 评论 -
MEMMs(Log-Linear Tagging Models)
和HMMs相比,Log-Linear Tagging Models的核心优势在于它高度灵活的表示,它可以让各种特征在模型中简单的聚合!提示:MEMMs和Log-Linear Tagging Model是同一个模型,因为ME本质上就是Log-Linear Model,而且MEMMs中用到的马尔可夫假设和HMM中用到的是几乎一样。只不过MEMMs是一个判别模型,它学习的是一个条件分布!条件标注...原创 2018-05-13 20:54:41 · 901 阅读 · 1 评论 -
Python自然语言处理第一章 - 语言处理与Python
我的运行环境python 3.5.2nltk 3.2.1nltk-datanumpy:科学计算库matplotlib:数据可视化的2D会图库 因为python、nltk版本不同,所以一些内容可能与书中的内容有所不同 一,搜索文本1,词语索引视图:显示指定单词的出现情况,同时还可以显示一些上下文text1.concordance('monstrous')2,查询并显示与指定关键词相似的上原创 2016-11-08 13:48:58 · 1037 阅读 · 0 评论 -
Python自然语言处理第三章 - 处理原始文本
一,从网络和硬盘访问文本1,电子书>>> raw = requests.get('http://gutenberg.org/files/2554/2554-0.txt').content>>> raw[:10]b'\xef\xbb\xbfThe Pro'>>> raw = raw.decode('utf-8')[1:]>>> raw[:10]'The Projec'>>> tokens原创 2018-03-10 14:55:16 · 768 阅读 · 0 评论 -
Python自然语言处理第三章 - 详解一个简单的分词方法
有些语言的书写系统,由于没有词边界的可视表示这一事实,使得文本分词变得更加困难。 这里介绍一种简单的分词方法。一,分词问题描述对以下没有明显词边界的句子进行分词:doyouseethekittyseethedoggydoyoulikethekittylikethedoggy遇到的第一个挑战仅仅是表示这个问题:我们需要找到一种方法来分开文本内容与分词 标志。 我们可以给每个字符标注一个原创 2018-03-10 15:28:12 · 874 阅读 · 0 评论 -
Python自然语言处理第四章 - 编写结构化程序
一,基础1,赋值 2,等式==只是检查两个变量的内容是否相同,并不能判断出它们的标识符是否一样。is是测试对象的标识符是否一样的。二,序列1,元组 例如:>>> t = 'walk', 'fem', 3>>> t('walk', 'fem', 3)2,序列类型上的操作zip()函数与enumerate()函数>>> words = ['I', 'turned', 'off', 'the原创 2018-03-11 18:32:10 · 469 阅读 · 0 评论 -
NLP概述
一,NLP问题的提出语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%上。全世界正在使用的语言有1900多种。所以,如何让计算机自动地理解人类的语言是极其重要的。二,基本概念HLT:人类语言技术NLU:自然语言理解CL:自然语言学NLP:自然语言处理它们之间的关系如下: ...原创 2018-03-12 20:54:27 · 851 阅读 · 0 评论 -
Log-Linear Models
一,简介引入对数线性模型被广泛应用于NLP中,对数线性模型的一个关键优点在于它的灵活性:它允许非常丰富的特征集合被用于模型中。常见的对数线性模型有Logistic回归、最大熵模型、MEMMs和CRFs等。目的1,Trigram LMTrigram LM还是比较有效的,但是它并没有充分使用上下文w1,w2,...,wi−1的信息w1,w2,...,wi−1的信息w_1,w...原创 2018-04-14 15:51:20 · 8350 阅读 · 2 评论 -
Language Modeling
一,语言模型1,基本定义一个语言模型包含一个词汇集合VVV和一个函数p(w1,w2,...,wn)p(w1,w2,...,wn)p(w_1,w_2,...,w_n),并且该函数满足:对于任意的词序列<w1,w2,...,wn>∈S,p(w1,w2,...,wn)≥0<w1,w2,...,wn>∈S,p(w1,w2,...,wn)≥0\in S,p(w_1,...原创 2018-04-05 20:05:39 · 2159 阅读 · 0 评论 -
Tagging Problems and Hidden Markov Models
一,标注问题1,基本定义通常将源序列x1,x2,..,xnx1,x2,..,xnx_1,x_2,..,x_n映射为标记序列y1,y2,...,yny1,y2,...,yny_1,y_2,...,y_n的问题,称为序列标注问题或者标注问题。序列对建模的任务就是从训练语料中学习一个函数可以将源序列映射为标记序列的函数。2,两个经典的标注问题(1)POS tagging(词性...原创 2018-04-12 20:46:49 · 369 阅读 · 0 评论 -
Probabilistic Context-Free Grammers(PCFGs)
一,上下文无关文法(CFGs)1,基本定义 如下就是一个比较清楚的例子: 2,最左推导 例如: 一组最左推导正好可以很容易地表示成一棵句法解析树,即一组最左推导其实可以看成一棵句法解析树!假设上面的句法解析树为ttt,则yield(t)=yield(t)=yield(t)=the dog laughs,即这棵树表示的单词序列。...原创 2018-05-01 21:49:47 · 5378 阅读 · 1 评论 -
Word2Vec
引言Word2Vec是google提出的一个学习word vecor(也叫word embedding)的框架。它主要提出了两个模型结构CBOW和Skip-gram,这两个模型都属于Log Linear模型,结构如下所示: CBOW对小型数据比较合适,而Skip-gram在大型语料中表现得更好。CBOW模型CBOW main idea:Predict center w...原创 2018-05-18 21:59:05 · 2831 阅读 · 0 评论 -
Python自然语言处理第二章 - 获得文本语料与词汇
一,获取文本语料库1,古腾堡语料库古腾堡语料库主要存储的是免费的电子图书。import nltkfrom nltk.corpus import *fileids = gutenberg.fileids();text1 = gutenberg.words(fileids[0]);len(text1)# 如果要使用第一章中的concordance()等函数需要将text...原创 2017-03-09 20:00:41 · 1175 阅读 · 0 评论