机器学习 分类算法
文章平均质量分 66
mm_bit
这个作者很懒,什么都没留下…
展开
-
过拟合问题简述
关于过度拟合的概念:给定一个假设空间H,一个假设h∈H,如果存在其他的假设h’∈H,使得在训练样例上h的错误率比h‘小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据过滤拟合可能的原因:(1)使用过于复杂的模型(dvc 很大);(2)数据噪音;(3)有限的训练数据。详细解释:1、所使用的模型对数据集来说过于复杂,以至于该模型不能很好地解释这些数据,把很简单的数原创 2015-07-22 09:51:12 · 843 阅读 · 0 评论 -
SVM分类器原理详解
第一层、了解SVM 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。1.1、分类标准的起源:Logistic回归 理解SVM,咱们必须先弄清楚一个概念:线性分类器。转载 2015-08-21 11:51:05 · 114126 阅读 · 8 评论 -
adaBoost算法
二、Adaboost算法及分析 从图1.1中,我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法,可以总结如下: 1)每次迭代改变的是样本的分布,而不是重复采样(re weight) 2)样本分布的改变取决于样本是否被正确分类 总是分类正确的样本权值低 总是分类错误的样本权值高(通常是边界附近的样本)原创 2015-08-21 12:02:32 · 621 阅读 · 0 评论 -
Libsvm的使用
LIBSVM简介支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的,自己编程实现该算法难度就更大了。但是现在的网络资源非常发达,而且国际上的科学研究者把他们的研究成果已经放在网络上,免费提供给用于研究目的,这样方便大多数的研究者,不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多,如LIBSVM、mySVM、SVMLight等,这些软转载 2015-08-21 11:52:02 · 768 阅读 · 0 评论 -
LDA主题模型的训练算法和预测算法
LDA训练算法:(1)随机初始化α和β(一般α取值为50/主题数,β取值为0.1);(2)以下步骤迭代直到收敛: (2.1)对训练集中的每篇文档: (2.1.1)利用当前的α和β值计算每篇文档的主题分布、每个词所属的主题分布(具体算法见下文); (2.2)累积所有文档中,属于主题k(k=1…K)的词的个数,得到向量gammas;以及词i(i=1…V)属于原创 2015-08-21 17:55:17 · 11523 阅读 · 1 评论 -
LDA主题模型的java代码实现
LDA主题模型的java代码实现,包括训练和预测原创 2015-08-20 10:21:30 · 9596 阅读 · 3 评论 -
LDA主题模型介绍
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易原创 2015-08-20 09:59:42 · 3870 阅读 · 0 评论 -
weka中的各算法说明
1) 数据输入和输出WOW():查看Weka函数的参数。Weka_control():设置Weka函数的参数。read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预转载 2015-08-19 17:36:18 · 5564 阅读 · 0 评论 -
词性标注 词性标识编码表
参考《PFR人民日报标注语料库》的词性编码表,如表4-4所示:表4-4 词性编码表代码名称举例a形容词最/d 大/a 的/u ad副形词一定/d 能够/v 顺利/ad 实现/v 。/w原创 2015-08-07 11:29:19 · 2570 阅读 · 0 评论 -
正则化解决过拟合问题
关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。正则化符合奥卡姆剃刀(Occam's razor)原理原创 2015-07-24 14:54:51 · 2070 阅读 · 0 评论 -
防止过拟合
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。为了防止overfitting,可以用的方法有很多,下文就将以此展开。有一个概念需要先说明,在机器学习算法中,我们常常将原始数据集分为三转载 2015-09-13 17:34:40 · 1171 阅读 · 0 评论