- 博客(8)
- 资源 (13)
- 收藏
- 关注
原创 最大似然估计 (MLE)与 最大后验概率(MAP)在机器学习中的应用
最大似然估计 MLE给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,对于线性回归,我们假定样本是服从正态分布,但是不知道均值和方差;或者对于逻辑回归,我们假定样本是服从二项分布,逻辑回归公式得到的是因变量y的概率P = g(x),x为自变量,通过逻辑函数得到一个概率值,y对应离散值为0后者1,但是不知道均值; 因此
2016-06-12 09:43:16 8934 1
原创 机器学习中的损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面
2016-06-08 17:29:19 96860 6
原创 回归问题中关于cost function 的选择
1 回归问题回归在数学上来说是给定一个点集,能够找一条曲线去拟合。这里面的“找一条”曲线不是漫无边际的找,而是先假定曲线的形式,如:直线、二次曲线等等,然后来学习确定曲线的各项参数。一方面,算法没有那么神奇,不能够告诉我们用什么类型的曲线拟合最好;另一方面,如果最初的假定就错了(用直线拟合最好,但是认为选择了二次曲线),最终的效果也是不好的。2 线性回归就是通过
2016-06-08 17:28:42 5267
原创 CART回归树对于特征的处理
CART算法的重要基础包含以下三个方面:(1)二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。CART算法采用一种二分递归分割的技术,算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景,对于连续特征的处理则与C4.5算
2016-06-07 14:36:17 9535 1
原创 C4.5 算法对于连续性属性的处理方法介绍
C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同。对于连续分布的特征,其处理方法是:先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化的方法:j的分到左子树,>vj的分到右子树。计算这N-1种情况下最大的信息增益率。另外
2016-06-07 13:08:38 20560 3
原创 基于卡方的独立性检验
本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立假设检验假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分
2016-06-07 10:26:16 15389
转载 熵的概念
熵的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个系统可以达到的状态数的一个度量,能达到的状态数越多熵越大。信息熵也基本是很类似的,是香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念,并且以后信息论也被作为一门单独的学科。信息
2016-06-05 00:52:46 4556
原创 基于用户协同过滤与基于物品协同过滤的比较
一、在适合用途上的比较。ItemCF是利用物品间的相似性来推荐的,所以假如用户的数量远远超过物品的数量,那么可以考虑使用ItemCF,比如购物网站,因其物品的数据相对稳定,因此计算物品的相似度时不但计算量较小,而且不必频繁更新;UserCF更适合做新闻、博客或者微内容的推荐系统,因为其内容更新频率非常高,特别是在社交网络中,UserCF是一个更好的选择,可以增加用户对推荐解释的信服程度。
2016-06-02 13:30:48 7893
text-classification-cnn-rnn.rar
2020-07-09
内存中引用与指针之间的使用与区别
2009-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人