![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MachineLearning
iteye_7668
这个作者很懒,什么都没留下…
展开
-
maxent 和CRF++使用中遇到的两个问题
[b]Maxent[/b]使用张乐博士的软件包时,要注意:1. 空格和table都是分隔符,同时出现在语料中,会造成错误,但信息会打印出来。2. 在8G内存的情况下,可容纳最大量,大约为1200万*5。3. 注意最大熵不能识别,同一个event中,相同的feature,要加以区分。[b]CRF++[/b]在使用CRF++时要注意:1. segment fau...原创 2011-03-08 09:11:23 · 362 阅读 · 0 评论 -
标注偏置问题(label bias)
CRF 相比于 maximum entropy Markov models一个很重要的特点就是避免了标注偏置问题。什么是标注偏置问题?在Conditional Random fields: Probabilistic Models for Segmenting and Labeling Sequence Data (http://www.cis.upenn.edu/~pereira/pap...原创 2011-03-10 14:45:36 · 1744 阅读 · 0 评论 -
(转)统计模型之间的比较
HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立,任何时刻的观察结果只依赖...原创 2011-03-10 14:47:06 · 338 阅读 · 0 评论 -
(转)K-均值聚类(K-means clustering)
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相似性度量准则...原创 2011-03-24 23:28:37 · 697 阅读 · 0 评论 -
[转载]决策树模型组合之随机森林与GBDT
最近用到gbdt, 所以找资源学习一下,特转此文。下面是原作者的版权声明:本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展...原创 2012-03-27 14:47:11 · 95 阅读 · 0 评论 -
(转载)模型组合(Model Combining)之Boosting与Gradient Boosting
头脑发热,转几篇博客,以备以后查看方便。 看了一遍,有一个大体了解,数学这部分已经忘了很多。请支持原作。谢谢。 还要找一个介绍bagging的文章,都了解一下。版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail...原创 2012-03-27 15:58:29 · 173 阅读 · 0 评论 -
决策树java实现(转)
一直看决策树的原理,但没实现过,所以找个代码看看。来源:http://www.cnblogs.com/zhangchaoyang/articles/2196631.html格式可能不太好,可参考原博客。 先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象...原创 2012-09-18 16:38:48 · 184 阅读 · 0 评论