KDD/ML
文章平均质量分 83
OshynSong
百度云计算事业部研发工程师
展开
-
MLAPP——机器学习的概率知识总结
选到了《jiqixuexi》原创 2014-10-12 16:31:04 · 5486 阅读 · 0 评论 -
机器学习实战——组合方法与AdaBoost
对于分类问题,在给定数据集前提下,训练比较粗糙的弱分类器比精确的强分类器容易得多。另外,Schapire证明了强可学习与弱可学习是等价的,因此首先学习简单的弱分类器,并进行组合就可以得到强分类器,这就是组合方法的理论基础。 组合(Ensemble)方法是一种提高分类准确率的方法,是一个由多个弱分类器组合的复合模型,其中每个单个分类器都进行投票,组合分类器返回最终组合的结果,这样分类的结果比单个分类原创 2015-06-29 18:07:29 · 5581 阅读 · 0 评论 -
机器学习实战——SVM(3/3)
前面两篇总结了线性支持向量机模型,总体来说,就是在样本输入空间下对每个维度进行线性组合之后使用符号函数判别最终的类别。第一个是理想情况下的线性可分SVM,这是第二个的近似线性可分SVM的基础。而且也是一种递进关系,是为了从数学抽象化的理想模型到现实情形的一种推广,但它们终究是一种线性模型,对于更复杂的现实情形有时候依然会难以描述,需要使用非线性模型去描述。非线性SVM由于现实问题的复杂性,导致训练的原创 2015-05-17 23:26:03 · 1472 阅读 · 0 评论 -
机器学习实战——最大熵模型
信息熵香农与1948年提出的信息论以其中的信息熵这一基本概念为基础,用来表征人们对客观事件的不确定性的度量,与物理学中的熵表征物质的混乱程度有相似之处。 当处理不确定事件时,最常用的方式就是用概率方式描述,一般假定不确定的事件A每种可能的状态都有一个概率与之对应:P(Ai)s.t.∑i=1nP(Ai)=1P(Ai)≥0P(A_i)\\ s.t.\sum_{i=1}^nP(A_i)=1\\P(A_i原创 2015-05-07 16:33:17 · 4428 阅读 · 2 评论 -
机器学习实战——SVM(2/3)
上一篇总结了对于训练数据集线性可分的理想情况下,使用硬间隔最大化训练得到分类超平面的SVM方法,这种方法在实际应用中并不实用,因为实际的训练数据总是会存在人为或不可控的因素干扰产生各种噪声,因此是无法在特征空间下找到线性可分的超平面的,但是噪声总是有限的,可以对硬间隔这个限制进行放松,引入一个松弛变量来控制分类超平面的训练,从而可以对近似可以线性可分的实际应用数据进行学习和预测。从这里也可以很明显原创 2015-05-16 00:05:17 · 2029 阅读 · 0 评论 -
机器学习实战——SVM(1/3)
SVM(支持向量机)是典型的二分类的判别式模型,这种方法以Rosenblatt于1957年提出的感知机模型的基础上,都是通过训练一个分类超平面之后,作为分类的决策函数,然后对未知的样本进行预测。通过对输入特征使用法向量和截距w=(w1,w2,...wn)、bw=(w_1,w_2,...w_n)、b进行线性组合,得到超平面,最终的决策函数也和感知机一样,为符号函数f(x)=sign(w⃗ ⋅x⃗ +b原创 2015-05-13 00:55:03 · 1816 阅读 · 4 评论 -
机器学习实战——Logistic回归
回归概述(个人理解的总结)回归是数学中的一种模拟离散数据点的数学模型的方法,拟合一个连续的函数从而可以对未知的离散数据点进行分类或预测。这种方法有一个统一的形式,给定nn维特征的数据集合,对任意一个数据点Xi={x(1)i,x(2)i,...,x(n)i}X_i=\{x_i^{(1)},x_i^{(2)},...,x_i^{(n)}\}的每个维度都有一个回归系数wiw_i与之对应,整个模型就存在一个原创 2015-04-30 19:47:01 · 1631 阅读 · 0 评论 -
机器学习——朴素贝叶斯(NBC)
朴素贝叶斯分类(NBC)是机器学习中最基本的分类方法,是其他众多分类算法分类性能的对比基础,其他的算法在评价性能时都在NBC的基础上进行。同时,对于所有机器学习方法,到处都蕴含着Bayes统计的思想。 朴素贝叶斯基于贝叶斯地理和特征条件独立性假设,首先基于条件独立性假设学习输入XX和输出YY的联合分布P(X,Y)P(X,Y),同时利用先验概率P(Y)P(Y),根据贝叶斯定理计算出后验概率P(Y|X原创 2015-04-27 00:51:35 · 2280 阅读 · 0 评论 -
机器学习实战——感知机
感知机学习策略具体实现数据集最大最小规范化训练过程测试最终结果感知机是二分类的线性分类模型,由Rosenblatt于1957年提出,是支持向量机和神经网络的基础。感知机将学习到一个线性划分的分离超平面,属于判别模型。感知机输入空间为RnR^n空间,nn是特征数目,输出空间y={+1,−1}y=\{+1,-1\}。感知机学习一个如下的符号函数: f(x)=sign(wx+b)f(x) =原创 2015-04-23 00:57:44 · 1644 阅读 · 0 评论 -
记一个文本分类系统的实现
基于信息检索课程,完成实现了一个文本分类系统,现记录一下整个实现过程。文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征提取方法、分类算法。本人主要使用了5种常用的分类算法,分别是kNN、Rocchio、NBC、SVM和ANN,对每种算法的结果原创 2014-12-29 16:18:50 · 5229 阅读 · 10 评论 -
机器学习实战——kNN分类器
惰性学习法:简单的存储数据,一直等待,直到给定一个测试元组时才进行泛化,根据对存储的元组的相似性进行分类。kNN(k近邻)分类方法于20世纪50年代提出,由于计算密集型算法,因此到60年代之后随着计算能力增强后才逐步应用。kNN基于类比学习,将给定的测试元组表示为n维空间中的一个点,n代表属性数目。然后使用某种距离度量方式来寻找与给定测试元组最近的k个训练元组,对这个k个训练元组的类别进行统计原创 2014-12-08 17:06:29 · 3089 阅读 · 0 评论 -
机器学习实战——条件随机场(CRF)
声明:本文是在《最优化方法》课程中阅读的Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data这篇文章后的总结。CRF由来条件随机场(CRF)这种用来解决序列标注问题的机器学习方法是由John Lafferty于2001年发表在国际机器学习大会ICML上的一篇经典文章所引入,对原创 2015-06-13 22:41:31 · 13124 阅读 · 0 评论