- 博客(4)
- 收藏
- 关注
原创 基于kNN的文本分类原理以及实现
前两天写了 基于libsvm中文文本分类 ,只是做到了会用的,SVM的理论性太强了,理解起来还是很费劲的。不过SVM的应用很广泛,除了文本分类,比如人脸识别,手写识别,甚至验证码识别都可以搞定。 kNN(k最邻近)算法相对而言,就简单得多了。1,kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选
2010-08-30 18:24:00 10840 3
原创 基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。SVM理论的学习,请参考jasper的博
2010-08-27 16:33:00 26224 14
原创 python html parser库lxml的介绍和使用(快速入门)
lxm是python的一个html/xml解析并建立dom的库,lxml的特点是功能强大,性能也不错,xml包含了ElementTree,html5lib,beautfulsoup等库,但是lxml也有自己相对应的库,所以,导致lxml比较复杂,初次使用者很难了解其关系。1. 解析html并建立dom>>> import lxml.etree as etree>>> html = 'abc123def456ghi'>>> dom = etree.fromstring(html)>>> e
2010-08-18 15:16:00 51389 1
原创 Calaméo--制作、分享、阅读的电子杂志阅读物
从阮一峰的博客上看到的,Calaméo 是一个优秀的Web2.0服务,可以将你的文件发布成电子书,让其他使用者直接在线上观看,同时你也可以浏览其他人创建的电子书。阅读画面精美、支持的档桉类型相当多,翻页极为顺畅。Calaméo 支援的档桉类型包括 pdf, doc, ppt, pps, txt 等等。1、相关产品google docs:google docs的定位还是在线的文档工具,解决多台电脑间,办公室和家里,以及和其他人分享文档的需求,但是更多的偏于前者,和微软Office办公软件类似。百度文库,豆丁:
2010-08-17 18:01:00 1852
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人