自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

冰枫的随笔

石梯砺步,木棉情长

  • 博客(12)
  • 资源 (9)
  • 收藏
  • 关注

原创 mallet源码分析之bagging与boosting

转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8743185      把mallet中Bagging算法与Boosting放在一起,其一是因为两者都是很著名的集成学习算法,并且有很大的相似性,对比着分析能加深对两者的理解;其二两者的实现确实很简单。算法Bagging算法:For t = 1, 2

2013-03-31 15:58:10 3656

转载 熵,信息增益,信息增益率,Gini

话说今天《机器学习》上课被很深地打击了,标名为“数据挖掘”专业的我居然连个信息增益的例子都没能算正确。唉,自看书以来,这个地方就一直没有去推算过,每每看到决策树时看完Entropy就直接跳过后面增益计算了。因而,总想找个时间再回过来好好看一下,这不,被逼上了呢。神奇的墨菲定律呢:你担心它发生的,它就一定会发生。回正题了,这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info

2013-03-29 10:15:09 15208

原创 mallet源码分析之决策树C4.5

本来在此之前还应该有一篇介绍mallet中贝叶斯实现的文章。鉴于已经写过mahout下贝叶斯的博客,算法过程已经十分完整,所以直接进入决策树算法的部分。以cc.mallet.classify.examples包下的DocumentClassifier为驱动来介绍C4.5算法。由于知识浅薄,疏漏错误之处在所难免,所以恳请各位能不吝赐教。文本预处理DocumentClassifier

2013-03-27 22:33:19 3055 1

原创 libSVM源码分析

转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8705648  在此之前,上海交大模式分析与机器智能实验室对2.6版本的svm.cpp做了部分注解,《LibSVM学习(四)——逐步深入LibSVM》也介绍了libSVM的思路,很精彩。而我写这篇博客更侧重与理解算法流程与具体代码的结合点。(环境:LibSVM2

2013-03-22 13:10:44 7929 11

转载 SMO算法

SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下,下

2013-03-22 12:31:48 3182

原创 mahout源码分析之贝叶斯算法

整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。数据预处理PrepareTwentyNewsgroupsfor(dir in categoryDirectorys)BayesFileFormat

2013-03-16 00:11:14 4133 1

原创 贝叶斯方法的m-估计

为什么要有m-估计?当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:1、nc/n产生了一个有偏的过低估计概率。

2013-03-14 10:46:13 13152 1

原创 文本分类的阈值策略

位置截尾法, rank-based thresholdRCut:将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。优点:考虑了分类器的全局性能比例截尾法, proportion-based thresholdPCut:将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj

2013-03-07 16:25:11 3396

原创 提高办公工作效率的Linux命令行秘诀

提高办公工作效率的命令行秘诀1、查看命令的使用频率 $ history|awk '{print $2}'|awk 'BEGIN {FS="|"} {print $1}'|sort|uniq -c|sort -r      4 ls      2 cd      1 who应用:定期查看history文件内使用频率高的命令,然后设置histor

2013-03-03 17:04:11 1542

原创 VIM编码

在 Linux 上,常见的情况是环境的内部编码使用 UTF-8 ,而 UTF-8 可以同任何一种语言编码作无损转换,这就保证了系统的多语言处理能力。Vim 这方面秉承了 Unix/Linux 的传统,在内部编码使 UTF-8 的时候,可以同时处理不同意语言编码的文件。以下列出了和语言编码的相关的设置:环境变量 LANG(所有语言变量的默认值);环境变量 LC_CTYPE(使用的内部

2013-03-01 23:29:35 1229

转载 locale的设定及LANG、LC_CTYPE、LC_ALL环境变量

转自:http://blog.chinaunix.net/uid-26760055-id-3222699.htmllocale这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。Locale是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。[oracle@game ~]$ localeLANG=en_US.UTF-

2013-03-01 22:47:38 2131

原创 VIM全配置

安装中文帮助文档1、文档获取wget http://sourceforge.net/projects/vimcdoc/files/vimcdoc/1.8.0/vimcdoc-1.8.0.tar.gz2、解压tar -zxvf vimcdoc-1.8.0.tar.gz 3、安装cd vimcdoc-1.8.0/(查看安装说明 cat INSTALL )sh vimcd

2013-03-01 14:31:01 1397

我的VIM配置

我的VIM配置

2013-03-01

taglist4.5

资源为taglist插件,由于英文网站难以访问,特下载至此

2013-03-01

用匈牙利算法求二分图的最大匹配

简单的一个求最大匹配的案例,制作成为了PPT以利于对算法的理解

2011-08-08

一款简单的桌面便笺仅供学习交流

本资源为作者利用假期写的一款简单的桌面便笺。便笺提供一些实用的功能。开发便笺的目的仅为学习交流,作者欢迎大家的建议与意见.平台:VS2008 主窗口: 1、在整体界面上同样使用半透明效果,使用的函数为SetLayeredWindowAttributes,255单位的透明程度我取了100到250的部分。文字显示为Edit,使用重载,使用了位图背景减小透明带来的难以看清楚的不良效果,突出文字。在ColorCtrl中修改了文字颜色,目的同上。 2、界面色彩提供右击变幻,提供6种颜色更换。Edit中提供双击修改,右击保存,背景提供5种主色的图片更换,文字提供七色更换 3、提供取消、设置置顶(SetWindowPos),不可移动(PreTranslateMessage中实现)、提供无标题栏移动(OnLButtonDown中实现) 4、各按钮以PNG图片代替,感应显示、消息响应(OnMouseMove中实现) 主窗口界面元素:对话框一个、编辑框一个、PNG图片5张

2010-10-07

LibGeoTiff(处理tiff文件的开源库)

LibGeotiff函数库,众所周知是处理TIFF图像的首选函数库.其和LibTiff函数库就像搭档一样,提供了简单简便的函数操作,为处理转化压缩TIFF格式文件的用户提供了极大地便利

2010-07-24

tiff3.8.2(Tiff图像处理库最新版)

Libtiff函数库,众所周知是处理TIFF图像的首选函数库,它提供的简单简便的函数操作,为处理转化压缩TIFF格式文件的用户提供了极大地便利

2010-07-24

C++编程思想的源代码

众所周知,c++编程思想(Thinking in C++)是很不错的一本书,附带的源码,分享了

2010-06-24

C语言实例解析精粹源代码

C语言实例解析精粹源代码,为第二版的书,分享了

2010-06-24

C++良好的编程风格

这是林锐博士写的一本书,主要是关于怎样的养成良好的书写代码的习惯,怎样的更好的编程的一本书,一个程序员一种风格,但每一种风格都需要的得到团队的认可,这样的风格才是良好的编程风格(PDF格式)

2010-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除