中文分词
nlcwdl
这个作者很懒,什么都没留下…
展开
-
中文文本分词之——反向最大匹配法
中文分词一直是自然语言处理研究的基本课题之一,也是首要课题之一,由于汉语的特点导致这是一件非常复杂的事情。不过随着研究工作的不断深入,现如今已经出现了非常多的方法来处理中文分词,主要分为基于词典的、基于统计的以及两者组合的。而本文介绍的就是基于词典的一种中文分词方法——反向最大匹配法。原创 2019-04-13 17:37:11 · 1007 阅读 · 0 评论 -
各种中文编码格式在eclipse中的乱码测试
以下测试均基于该软件环境:win10系统、eclipse 概述 在最近的一次编码过程中,我在eclipse上读取一个中文文档的时候出现了乱码。本文就是测试哪种格式的文档会在eclipse中出现乱码,并且给出一种解决方案。 一些背景知识 想要深入理解中文编码格式的相关知识,可先转至UTF-8和GBK等中文字符编码格式介绍及相互转换 测试部分 我对不同编码格式的txt文档进行了输出测试,结果如下: ...原创 2019-03-25 23:37:34 · 430 阅读 · 0 评论