自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 决策树java实现(转)

一直看决策树的原理,但没实现过,所以找个代码看看。来源:http://www.cnblogs.com/zhangchaoyang/articles/2196631.html格式可能不太好,可参考原博客。 先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象...

2012-09-18 16:38:48 185

原创 tar命令

tar-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。-z:有gzip属性的-j:有bz2属性的-Z:有compress属性的-v:显示所有过程-O:将文件解开到...

2012-07-18 15:15:42 88

原创 vim的一些使用问题

多文件切换 通过vim打开多个文件(可以通过ctags或者cscope) ":ls"查看当前打开的buffer(文件) ":b num"切换文件(其中num为buffer list中的编号)可以用到的命令有":bn" -- next buffer in the buffer list":bp" -- previous buffer in the b...

2012-07-18 10:57:02 113

原创 (转)《软件工程的事实与谬论》(二)

没什么可说的,喜欢ctrl_c + ctrl_v.原url: http://hi.baidu.com/hydrangea/blog/item/4b826c0ef9cab3c97bcbe1ba.html1.2 工具和技术  事实5:夸大宣传是软件的瘟疫。多数软件工具对于效率和质量的提高幅度仅为5%~35%。但是总有人反复说提高幅度是“数量级”的。  事实6:在学习新工具或...

2012-03-30 16:27:32 128

原创 (转)《软件工程的事实与谬论》(一)

这次转带分析的,谢谢原作者。原网址是:http://hi.baidu.com/hydrangea/blog/item/da578e529948240d0df3e36a.html软件工程的事实与谬论Facts and Fallacies of Software EngineeringRobert L. Glass 著Alan M. Davis 序严亚军 龚波 译...

2012-03-30 16:25:45 173

原创 (转)《软件工程的事实与谬论》

没找到这本书,把主要观点从别人那里转过来,自己参考一下。虽然简短,有的很有启发意义。在这里没有分析的内容,将在以后的的博客中,逐步把更原始的博客转过来。这篇的原链接是:http://wjason.iteye.com/blog/280777软件工程的事实与谬论Facts and Fallacies of Software EngineeringRobert L. Glas...

2012-03-30 13:56:33 123

原创 eclipse不显示referenced libraries

引用的第三方Jar 没有放在referenced libraries 目录下没注意一个细节,即Project Explorer与Package Explorer的区别,在Package Explorer窗口中会出现Referenced Libraries,但Java EE 透视图中默认左边只有Project Explorer窗口。因此只要打开Package Explorer窗口即可,打开方...

2012-03-30 13:46:21 1314

原创 (转载)模型组合(Model Combining)之Boosting与Gradient Boosting

头脑发热,转几篇博客,以备以后查看方便。 看了一遍,有一个大体了解,数学这部分已经忘了很多。请支持原作。谢谢。 还要找一个介绍bagging的文章,都了解一下。版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail...

2012-03-27 15:58:29 178

原创 [转载]决策树模型组合之随机森林与GBDT

最近用到gbdt, 所以找资源学习一下,特转此文。下面是原作者的版权声明:本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展...

2012-03-27 14:47:11 96

原创 数据挖掘九律(转)

数据挖掘,最困难的是什么? 我感觉是定义一个目标。数据挖掘的主要任务是对数据的预测、分类。当然目标设定后,数据模型的建立,分类算法的选取,特征的选择等等也都非常难。但不能定义出一个有意义,有可行性的目标,使得想经历那些困难都难。 这话别人能看懂吗?。。 下面转个数据挖掘九律,大家看看。http://spss-market.r.blog.163.com/blog/static/731422...

2011-06-07 17:14:11 102

原创 分析报告、统计分析和数据挖掘的区别(转)

做数据挖掘,惊喜发现做了一堆统计分析。 这还是数据挖掘吗? 真的不是。所以转这篇博客看一下。 http://spss-market.r.blog.163.com/blog/static/7314226820114180022131/?suggestedreading#############################################################...

2011-06-07 17:07:20 157

原创 lucene-索引文件格式(转)

索引文件结构 Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数...

2011-05-24 15:39:04 131

原创 (转)K-均值聚类(K-means clustering)

K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相似性度量准则...

2011-03-24 23:28:37 700

原创 在linux系统安装JDK后的配置

昨天在服务器上,装了一个64位的JDK1.6,在配上费了比较长的时间。其实配置很简单,很多网页上都有,但不知道为什么,有的不行。写一个我最终采用的可行的。1. 仅对当前shell有用shell中直接输入:export JAVA_HOME=/YOUR INSTALL PATHexport CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOM...

2011-03-18 16:49:25 93

原创 (转)统计模型之间的比较

HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立,任何时刻的观察结果只依赖...

2011-03-10 14:47:06 339

原创 标注偏置问题(label bias)

CRF 相比于 maximum entropy Markov models一个很重要的特点就是避免了标注偏置问题。什么是标注偏置问题?在Conditional Random fields: Probabilistic Models for Segmenting and Labeling Sequence Data (http://www.cis.upenn.edu/~pereira/pap...

2011-03-10 14:45:36 1747

原创 Java的格式化输出

从来都记不住这个东西,在这写写。两个方法:(1)String.formant("%.4f",1.23234355); (2) System.out.printf(""%.4f",1.23234355);需要注意一点,后面对应的类型,一定要和格式化字符串一致,否者,会出错,耽误时间。下面是转载过来的。用于printf的转换符如下表:转换符 类型  举例...

2011-03-10 10:24:32 191

原创 Dom4j的使用(1)

dom4j对于java的xml处理还是非常好用的,今天先写个文件的创建。 Document xmlDoc=DocumentHelper.createDocument(); Element root=xmlDoc.addElement(XmlConfig.root); root.addNamespace(XmlC...

2011-03-09 16:53:50 71

原创 maxent 和CRF++使用中遇到的两个问题

[b]Maxent[/b]使用张乐博士的软件包时,要注意:1. 空格和table都是分隔符,同时出现在语料中,会造成错误,但信息会打印出来。2. 在8G内存的情况下,可容纳最大量,大约为1200万*5。3. 注意最大熵不能识别,同一个event中,相同的feature,要加以区分。[b]CRF++[/b]在使用CRF++时要注意:1. segment fau...

2011-03-08 09:11:23 363

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除