机器学习与数据挖掘
文章平均质量分 81
cai0538
这个作者很懒,什么都没留下…
展开
-
关于中文分词
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。原创 2011-12-20 19:59:51 · 1945 阅读 · 1 评论 -
k-means(k均值聚类)算法介绍及实现(c++)
基本介绍:k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。工作过程: k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对原创 2011-12-11 21:49:06 · 39636 阅读 · 12 评论 -
Python自然语言处理学习笔记[一]---前言(preface)
2012-4-6 读前言(preface)部分 update time:2012-4-6Thisis a book about Natural Language Processing. By “natural language” we mean a languagethat is used for everyday communication by humans; languages su原创 2012-04-06 23:32:35 · 2760 阅读 · 0 评论 -
怎样写一个拼写检查器
from:http://blog.youxu.info/spell-correct.html怎样写一个拼写检查器 Peter Norvig翻译: Eric You XU上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间内, G原创 2012-04-08 22:29:54 · 1093 阅读 · 0 评论