2018年08月_谢杨易

11月 09月 08月 05月 04月 01月

原创自然语言处理5 -- 词向量

1 概述词向量和分词一样，也是自然语言处理中的基础性工作。词向量一方面解决了词语的编码问题，另一方面也解决了词的同义关系，使得基于LSTM等深度学习模型的自然语言处理成为了可能。和分词不同，中英文文本，均需要进行词向量编码。2 词向量工具2013年Google开源了word2vec工具，它可以进行词向量训练，加载已有模型进行增量训练，求两个词向量相似度，求与某个词接近的词语，等等。...

2018-08-27 10:23:43 22405 12

原创自然语言处理3 -- 词性标注

1 概述词性标注在自然语言处理中也属于基础性的模块，为句法分析、信息抽取等工作打下基础。和分词一样，中文词性标注也存在着很多难点，比如一词多词性，未登录词处理等诸多问题。通过基于字符串匹配的字典查询算法和基于统计的词性标注算法，可以很好的解决这些问题。一般需要先将语句进行分词，然后再进行词性标注。2 词性标注难点词性作为词语基本的语法属性，是词语和语句的关键性特征。词性种类也很多，...

2018-08-21 14:35:01 24391 11

1 概述上篇文章我们分析了自然语言处理，特别是中文处理中，分词的几个主要难点，为了解决这些难点，我们提出了基于字符串匹配的算法和基于统计的分词算法。针对当前的几种分词引擎，我们对其分词准确度和速度进行了评估。jieba分词作为一个开源项目，在准确度和速度方面均不错，是我们平时常用的分词工具。本文将对jieba分词的使用方法以及原理进行讲解，便于我们在理解jieba分词原理的同时，加深对前文讲解...

2018-08-16 11:25:49 33804 8

原创自然语言处理1 -- 分词

1 概述英文语句使用空格将单词进行分隔，除了某些特定词，如how many，New York等外，大部分情况下不需要考虑分词问题。但中文不同，天然缺少分隔符，需要读者自行分词和断句。故在做中文自然语言处理时，我们需要先进行分词。 2 中文分词难点中文分词不像英文那样，天然有空格作为分隔。而且中文词语组合繁多，分词很容易产生歧义。因此中文分词一直以来都是NLP的一个重点，也是一个难点。...

2018-08-14 19:33:26 22600 10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

谢杨易的博客

原创自然语言处理5 -- 词向量

原创自然语言处理3 -- 词性标注

原创自然语言处理2 -- jieba分词用法及原理

原创自然语言处理1 -- 分词

空空如也

空空如也

原创 自然语言处理5 -- 词向量

原创 自然语言处理3 -- 词性标注

原创 自然语言处理2 -- jieba分词用法及原理

原创 自然语言处理1 -- 分词

空空如也

空空如也

原创自然语言处理5 -- 词向量

原创自然语言处理3 -- 词性标注

原创自然语言处理2 -- jieba分词用法及原理

原创自然语言处理1 -- 分词