- 博客(4)
- 收藏
- 关注
原创 自然语言处理5 -- 词向量
1 概述词向量和分词一样,也是自然语言处理中的基础性工作。词向量一方面解决了词语的编码问题,另一方面也解决了词的同义关系,使得基于LSTM等深度学习模型的自然语言处理成为了可能。和分词不同,中英文文本,均需要进行词向量编码。2 词向量工具2013年Google开源了word2vec工具,它可以进行词向量训练,加载已有模型进行增量训练,求两个词向量相似度,求与某个词接近的词语,等等。...
2018-08-27 10:23:43 22405 12
原创 自然语言处理3 -- 词性标注
1 概述词性标注在自然语言处理中也属于基础性的模块,为句法分析、信息抽取等工作打下基础。和分词一样,中文词性标注也存在着很多难点,比如一词多词性,未登录词处理等诸多问题。通过基于字符串匹配的字典查询算法和基于统计的词性标注算法,可以很好的解决这些问题。一般需要先将语句进行分词,然后再进行词性标注。2 词性标注难点词性作为词语基本的语法属性,是词语和语句的关键性特征。词性种类也很多,...
2018-08-21 14:35:01 24391 11
原创 自然语言处理2 -- jieba分词用法及原理
1 概述上篇文章我们分析了自然语言处理,特别是中文处理中,分词的几个主要难点,为了解决这些难点,我们提出了基于字符串匹配的算法和基于统计的分词算法。针对当前的几种分词引擎,我们对其分词准确度和速度进行了评估。jieba分词作为一个开源项目,在准确度和速度方面均不错,是我们平时常用的分词工具。本文将对jieba分词的使用方法以及原理进行讲解,便于我们在理解jieba分词原理的同时,加深对前文讲解...
2018-08-16 11:25:49 33804 8
原创 自然语言处理1 -- 分词
1 概述英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,我们需要先进行分词。 2 中文分词难点中文分词不像英文那样,天然有空格作为分隔。而且中文词语组合繁多,分词很容易产生歧义。因此中文分词一直以来都是NLP的一个重点,也是一个难点。...
2018-08-14 19:33:26 22600 10
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人