自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ouprince

ouprince

  • 博客(4)
  • 收藏
  • 关注

转载 中文 NLP(11) -- stanfordNLP 生成文法之 PCFG 模型

在短语结构文法中,也就是转换生成语法,目前最成熟、精度最高的算法就是 PCFG 算法。另一种基于依存句法理论的分析方法,最高效的是深度学习算法(Trainsition-Based LSTM)PCFG 即 Probabilistic CFG ,也就是基于概率的短语结构分析。也就是在 G = (X,V,S,R) 的基础上加一个 P 表示概率,变成 G= (X,V,S,R,P) 约束如下:...

2018-12-07 17:23:45 7163

转载 中文 NLP (10) -- 句法解析之 转换生成语法 和 依存句法

多年来 NLP 领域最广泛的两种句法分析理论分别为 转换生成语法和依存句法。转换生成语法短语结构文法:形式化定义为 G = (X,V,S,R) 这样一个四元组。X 是词汇集合,称为终结符。V 是标注的集合,称为非终结符。S 属于 V ,称为文法开始符。R 是有序偶对(α,β)的集合,α 是集合 (X∪V)上的字符串,但至少包含一个非终结符,β 是(X∪V) 闭包的元素。一般的,将有序偶对...

2018-12-07 14:06:02 4685

转载 中文 NLP(9) -- 实体识别

(1)实体识别识别 人名,地名,组织机构,日期,时间,百分数,货币这七大实体。重点是人名,地名和组织机构的识别。属于未登录词识别的范畴。人名特征:当今仍使用,活跃的中文姓氏大致有1000 多个,前 586 个姓占了 98.5%。其余姓氏不到 1.5%。名字用字分布较姓氏用字分布要平缓,分散。共 3679 个名字用字,词性分布也很广泛,不仅有实词,还有各类虚词。地名特征:较之人名相比,地...

2018-12-04 10:08:52 4352 6

转载 中文 NLP(8) -- 使用 CRF++ 和 BIO 表示法训练模型

一般在训练 NLP 模型,比如分词,词性,组块标注等等时,采用 BIO 表示法,说明如下:B — 代表当前词是一个组块的开始I — 代表当前词在一个组块中O — 代表当前词不在任意组块中 。如果要求更精确,可以增加两个符号:E — 代表组块结束S — 代表当前词是一个组块,该组块只有一个词以句法组块标注训练为例,我们先将 宾州树 的标注使用 perl 小程序作如下转化,...

2018-12-02 14:54:37 5727

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除