2016年06月_Michael_Shentu

12月 09月 08月 07月 06月 05月 04月 02月 01月

原创最大似然估计（MLE）与最大后验概率（MAP）在机器学习中的应用

最大似然估计 MLE给定一堆数据，假如我们知道它是从某一种分布中随机取出来的，可是我们并不知道这个分布具体的参，即“模型已定，参数未知”。例如，对于线性回归，我们假定样本是服从正态分布，但是不知道均值和方差；或者对于逻辑回归，我们假定样本是服从二项分布，逻辑回归公式得到的是因变量y的概率P = g(x),x为自变量，通过逻辑函数得到一个概率值，y对应离散值为0后者1，但是不知道均值；因此

2016-06-12 09:43:16 8934 1

原创机器学习中的损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面

2016-06-08 17:29:19 96860 6

原创回归问题中关于cost function 的选择

1 回归问题回归在数学上来说是给定一个点集，能够找一条曲线去拟合。这里面的“找一条”曲线不是漫无边际的找，而是先假定曲线的形式，如：直线、二次曲线等等，然后来学习确定曲线的各项参数。一方面，算法没有那么神奇，不能够告诉我们用什么类型的曲线拟合最好；另一方面，如果最初的假定就错了（用直线拟合最好，但是认为选择了二次曲线），最终的效果也是不好的。2 线性回归就是通过

2016-06-08 17:28:42 5267

原创 CART回归树对于特征的处理

CART算法的重要基础包含以下三个方面：（1）二分(Binary Split)：在每次判断过程中，都是对观察变量进行二分。CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个子样本集，使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景，对于连续特征的处理则与C4.5算

2016-06-07 14:36:17 9535 1

原创 C4.5 算法对于连续性属性的处理方法介绍

C4.5既可以处理离散型属性，也可以处理连续性属性。在选择某节点上的分枝属性时，对于离散型描述属性，C4.5的处理方法与ID3相同。对于连续分布的特征，其处理方法是：先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的，但对于有限的采样数据它是离散的，如果有N条样本，那么我们有N-1种离散化的方法：j的分到左子树，>vj的分到右子树。计算这N-1种情况下最大的信息增益率。另外

2016-06-07 13:08:38 20560 3

原创基于卡方的独立性检验

本文给出基于两种统计量的假设检验，来检验变量间是否独立--χ2与秩和。χ2越小说明越独立假设检验假设检验（Test of Hypothesis）又称为显著性检验（Test of Ststistical Significance）。在抽样研究中，由于样本所来自的总体其参数是未知的，只能根据样本统计量对其所来自总体的参数进行估计，如果要比较两个或几个总体的参数是否相同，也只能分

2016-06-07 10:26:16 15389

转载熵的概念

熵的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的，由热力学第二定律可以推出熵增的结论，然后熵是用来对一个系统可以达到的状态数的一个度量，能达到的状态数越多熵越大。信息熵也基本是很类似的，是香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念，并且以后信息论也被作为一门单独的学科。信息

2016-06-05 00:52:46 4556

原创基于用户协同过滤与基于物品协同过滤的比较

一、在适合用途上的比较。ItemCF是利用物品间的相似性来推荐的，所以假如用户的数量远远超过物品的数量，那么可以考虑使用ItemCF，比如购物网站，因其物品的数据相对稳定，因此计算物品的相似度时不但计算量较小，而且不必频繁更新;UserCF更适合做新闻、博客或者微内容的推荐系统，因为其内容更新频率非常高，特别是在社交网络中，UserCF是一个更好的选择，可以增加用户对推荐解释的信服程度。

2016-06-02 13:30:48 7893