文本分类
文章平均质量分 78
简单即优雅
机器学习 数据挖掘 数学 英语 足球 coding
展开
-
字符编码笔记:ASCII,Unicode和UTF-8
转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。 下面就是我的笔记,主要用来整理自己的思路。但是,我尽量试图写得通俗易懂,希望能对其他朋友有转载 2013-03-26 13:53:16 · 334 阅读 · 0 评论 -
MMSEG中文分词算法
转自:http://hi.baidu.com/catro/item/5c76247c0ff6a9376f29f6ed MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。关于算法的原文,可以参 见:http://technology.c转载 2013-03-26 13:49:51 · 491 阅读 · 0 评论 -
简易中文分词系统实现 c++
*******************************中文分词模块********************************************************* **************************************************************************************************** #所原创 2013-03-26 13:43:18 · 1459 阅读 · 1 评论