- 博客(12)
- 资源 (9)
- 收藏
- 关注
原创 mallet源码分析之bagging与boosting
转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8743185 把mallet中Bagging算法与Boosting放在一起,其一是因为两者都是很著名的集成学习算法,并且有很大的相似性,对比着分析能加深对两者的理解;其二两者的实现确实很简单。算法Bagging算法:For t = 1, 2
2013-03-31 15:58:10 3656
转载 熵,信息增益,信息增益率,Gini
话说今天《机器学习》上课被很深地打击了,标名为“数据挖掘”专业的我居然连个信息增益的例子都没能算正确。唉,自看书以来,这个地方就一直没有去推算过,每每看到决策树时看完Entropy就直接跳过后面增益计算了。因而,总想找个时间再回过来好好看一下,这不,被逼上了呢。神奇的墨菲定律呢:你担心它发生的,它就一定会发生。回正题了,这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info
2013-03-29 10:15:09 15208
原创 mallet源码分析之决策树C4.5
本来在此之前还应该有一篇介绍mallet中贝叶斯实现的文章。鉴于已经写过mahout下贝叶斯的博客,算法过程已经十分完整,所以直接进入决策树算法的部分。以cc.mallet.classify.examples包下的DocumentClassifier为驱动来介绍C4.5算法。由于知识浅薄,疏漏错误之处在所难免,所以恳请各位能不吝赐教。文本预处理DocumentClassifier
2013-03-27 22:33:19 3055 1
原创 libSVM源码分析
转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8705648 在此之前,上海交大模式分析与机器智能实验室对2.6版本的svm.cpp做了部分注解,《LibSVM学习(四)——逐步深入LibSVM》也介绍了libSVM的思路,很精彩。而我写这篇博客更侧重与理解算法流程与具体代码的结合点。(环境:LibSVM2
2013-03-22 13:10:44 7929 11
转载 SMO算法
SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下,下
2013-03-22 12:31:48 3182
原创 mahout源码分析之贝叶斯算法
整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。数据预处理PrepareTwentyNewsgroupsfor(dir in categoryDirectorys)BayesFileFormat
2013-03-16 00:11:14 4133 1
原创 贝叶斯方法的m-估计
为什么要有m-估计?当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:1、nc/n产生了一个有偏的过低估计概率。
2013-03-14 10:46:13 13152 1
原创 文本分类的阈值策略
位置截尾法, rank-based thresholdRCut:将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。优点:考虑了分类器的全局性能比例截尾法, proportion-based thresholdPCut:将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj
2013-03-07 16:25:11 3396
原创 提高办公工作效率的Linux命令行秘诀
提高办公工作效率的命令行秘诀1、查看命令的使用频率 $ history|awk '{print $2}'|awk 'BEGIN {FS="|"} {print $1}'|sort|uniq -c|sort -r 4 ls 2 cd 1 who应用:定期查看history文件内使用频率高的命令,然后设置histor
2013-03-03 17:04:11 1542
原创 VIM编码
在 Linux 上,常见的情况是环境的内部编码使用 UTF-8 ,而 UTF-8 可以同任何一种语言编码作无损转换,这就保证了系统的多语言处理能力。Vim 这方面秉承了 Unix/Linux 的传统,在内部编码使 UTF-8 的时候,可以同时处理不同意语言编码的文件。以下列出了和语言编码的相关的设置:环境变量 LANG(所有语言变量的默认值);环境变量 LC_CTYPE(使用的内部
2013-03-01 23:29:35 1229
转载 locale的设定及LANG、LC_CTYPE、LC_ALL环境变量
转自:http://blog.chinaunix.net/uid-26760055-id-3222699.htmllocale这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。Locale是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。[oracle@game ~]$ localeLANG=en_US.UTF-
2013-03-01 22:47:38 2131
原创 VIM全配置
安装中文帮助文档1、文档获取wget http://sourceforge.net/projects/vimcdoc/files/vimcdoc/1.8.0/vimcdoc-1.8.0.tar.gz2、解压tar -zxvf vimcdoc-1.8.0.tar.gz 3、安装cd vimcdoc-1.8.0/(查看安装说明 cat INSTALL )sh vimcd
2013-03-01 14:31:01 1397
一款简单的桌面便笺仅供学习交流
2010-10-07
LibGeoTiff(处理tiff文件的开源库)
2010-07-24
tiff3.8.2(Tiff图像处理库最新版)
2010-07-24
C++良好的编程风格
2010-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人