自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

架构和代码

内容比较杂

  • 博客(4)
  • 收藏
  • 关注

原创 基于kNN的文本分类原理以及实现

    前两天写了 基于libsvm中文文本分类 ,只是做到了会用的,SVM的理论性太强了,理解起来还是很费劲的。不过SVM的应用很广泛,除了文本分类,比如人脸识别,手写识别,甚至验证码识别都可以搞定。    kNN(k最邻近)算法相对而言,就简单得多了。1,kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选

2010-08-30 18:24:00 10840 3

原创 基于libsvm的中文文本分类原型

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。SVM理论的学习,请参考jasper的博

2010-08-27 16:33:00 26224 14

原创 python html parser库lxml的介绍和使用(快速入门)

lxm是python的一个html/xml解析并建立dom的库,lxml的特点是功能强大,性能也不错,xml包含了ElementTree,html5lib,beautfulsoup等库,但是lxml也有自己相对应的库,所以,导致lxml比较复杂,初次使用者很难了解其关系。1. 解析html并建立dom>>> import lxml.etree as etree>>> html = 'abc123def456ghi'>>> dom = etree.fromstring(html)>>> e

2010-08-18 15:16:00 51389 1

原创 Calaméo--制作、分享、阅读的电子杂志阅读物

从阮一峰的博客上看到的,Calaméo 是一个优秀的Web2.0服务,可以将你的文件发布成电子书,让其他使用者直接在线上观看,同时你也可以浏览其他人创建的电子书。阅读画面精美、支持的档桉类型相当多,翻页极为顺畅。Calaméo 支援的档桉类型包括 pdf, doc, ppt, pps, txt 等等。1、相关产品google docs:google docs的定位还是在线的文档工具,解决多台电脑间,办公室和家里,以及和其他人分享文档的需求,但是更多的偏于前者,和微软Office办公软件类似。百度文库,豆丁:

2010-08-17 18:01:00 1852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除