自然语言处理
诚王
这个作者很懒,什么都没留下…
展开
-
自然语言处理(3)——Word2Vec理论
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前...转载 2018-11-21 16:12:02 · 336 阅读 · 0 评论 -
自然语言处理——中文分词原理及分词工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范...转载 2018-11-21 16:40:59 · 574 阅读 · 0 评论