![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
swiftfake
新手上路,多多指教
展开
-
提取关键词
关键词是一篇文档中表达的主要话题,处理文档或句子时,提取关键词是最重要的工作之一,这在NLP中也是一个十分有用的task。常见的关键词提取方法有:TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取。TF-IDF:使用TF-IDF提取关键词的方法十分好理解,TF衡量了一个词在文档中出现的频率,一个文档中多次出现的词总是有一定的特殊意义,但是并不是所有多次...转载 2018-07-16 17:23:11 · 804 阅读 · 0 评论 -
自然语言处理基本概念
文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。常见的基本操作如下:分词通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配(正向匹配、逆向匹配、最大匹配)。统计方法是基本字符串在语料...转载 2018-07-19 16:47:14 · 847 阅读 · 0 评论 -
中文分词原理与工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍 1.1 中文分词概述 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的...转载 2018-07-20 08:24:45 · 561 阅读 · 0 评论 -
免费在线语料库
转自http://blog.sina.com.cn/u/3f7d15aa0100042lAcademia Sinica Balanced Corpus of Modern Chinese http://www.sinica.edu.tw/SinicaCorpus/Peking University Modern Chinese Corpus http://ccl.pku.edu.cn/...转载 2018-09-11 14:22:24 · 4414 阅读 · 0 评论