2010年08月_Coder李海波

12月 11月 10月 09月 08月 07月 06月 02月 01月

原创基于kNN的文本分类原理以及实现

前两天写了基于libsvm中文文本分类，只是做到了会用的，SVM的理论性太强了，理解起来还是很费劲的。不过SVM的应用很广泛，除了文本分类，比如人脸识别，手写识别，甚至验证码识别都可以搞定。 kNN（k最邻近）算法相对而言，就简单得多了。1，kNN算法就是找到k个最相似的样本，这些样本所在的类，就是当前文档的所属的类。如下图：绿色圆圈表示你想分类的文本，其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3，就是取3个最相似的文本，那么1个蓝色框，2红色三角被选

2010-08-30 18:24:00 10841 3

原创基于libsvm的中文文本分类原型

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。SVM理论的学习，请参考jasper的博

2010-08-27 16:33:00 26227 14

原创 python html parser库lxml的介绍和使用（快速入门）

lxm是python的一个html/xml解析并建立dom的库，lxml的特点是功能强大，性能也不错，xml包含了ElementTree，html5lib，beautfulsoup等库，但是lxml也有自己相对应的库，所以，导致lxml比较复杂，初次使用者很难了解其关系。1. 解析html并建立dom>>> import lxml.etree as etree>>> html = 'abc123def456ghi'>>> dom = etree.fromstring(html)>>> e

2010-08-18 15:16:00 51389 1

原创 Calaméo--制作、分享、阅读的电子杂志阅读物

从阮一峰的博客上看到的，Calaméo 是一个优秀的Web2.0服务，可以将你的文件发布成电子书，让其他使用者直接在线上观看，同时你也可以浏览其他人创建的电子书。阅读画面精美、支持的档桉类型相当多，翻页极为顺畅。Calaméo 支援的档桉类型包括 pdf, doc, ppt, pps, txt 等等。1、相关产品google docs：google docs的定位还是在线的文档工具，解决多台电脑间，办公室和家里，以及和其他人分享文档的需求，但是更多的偏于前者，和微软Office办公软件类似。百度文库，豆丁：

2010-08-17 18:01:00 1852

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于kNN的文本分类原理以及实现

原创 基于libsvm的中文文本分类原型

原创 python html parser库lxml的介绍和使用（快速入门）

原创 Calaméo--制作、分享、阅读的电子杂志阅读物

空空如也

空空如也

原创基于kNN的文本分类原理以及实现

原创基于libsvm的中文文本分类原型