![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言
朝闻道_
这个作者很懒,什么都没留下…
展开
-
国内分词算法
作者:竹间智能 Emotibot链接:https://www.zhihu.com/question/19578687/answer/190569700来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果...转载 2018-03-22 17:36:31 · 2448 阅读 · 0 评论 -
MMSEG分词算法
一、分词方法关于中文分词 参考之前写的jieba分词源码分析 jieba中文分词。 中文分词算法大概分为两大类:一是基于字符串匹配,即扫描字符串,使用如正向/逆向最大匹配,最小切分等策略(俗称基于词典的) 基于词典的分词算法比较常见,比如正向/逆向最大匹配,最小切分(使一句话中的词语数量最少)等。具体使用的时候,通常是多种算法合用,或者一种为主、多种为辅,同时还会加入词性、词频等属性来辅助处理(运...转载 2018-03-22 20:56:42 · 277 阅读 · 0 评论 -
字符、字节、编码
字符,字节和编码[原创文章,转载请保留或注明出处:http://www.regexlab.com/zh/encoding.htm]级别:中级摘要:本文介绍了字符与编码的发展过程,相关概念的正确理解。举例说明了一些实际应用中,编码的实现方法。然后,本文讲述了通常对字符与编码的几种误解,由于这些误解而导致乱码产生的原因,以及消除乱码的办法。本文的内容涵盖了“中文问题”,“乱码问题”。掌握编码问题的关键...转载 2018-03-13 11:34:50 · 164 阅读 · 0 评论 -
词典分词法
中文分词基本算法主要分类:基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配 1.2基于统计的分词(无字典分词) 主要思想:上下文中,相邻的字同时出现的次数越多,就越可...转载 2018-03-22 11:37:09 · 2070 阅读 · 0 评论 -
python分词基础
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合...转载 2018-03-22 11:57:13 · 8232 阅读 · 1 评论