ML入门笔记
天涯__
我不是归人,是个过客。
展开
-
[转]朴素贝叶斯实例——账号分类
看到一篇既有理论又有实例的博文,清晰易懂地讲解了朴素贝叶斯,将实例转载过来,作为备忘。转载于: 张洋 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html下面讨论一个使用朴素贝叶斯转载 2016-06-27 12:40:06 · 843 阅读 · 0 评论 -
初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型
1.线性回归线性回归,即假设使用一个线性的模型方程,来拟合特征与结果,如下 向量形式: x1,x2为输入特征。在上式中,theta则为每个特征所对应的权重值,上式隐含了一个条件,即我们假设还有x0这个特征,其值全部为1。定义cost function为: 上式可以看到,J(θ)的值即为所有训练集的偏差平方和,我们的目标即是找到一组合适的θ,来使J(θ)达到最小化。1.1梯度下降求解θ: 对J(θ)求原创 2016-06-21 21:00:17 · 3140 阅读 · 0 评论 -
初学ML笔记N0.2——生成学习算法
在前几次的学习内容中,我们都是直接对P(Y|X)进行建模分析,线性回归及逻辑斯蒂回归就是这样的,这种方法叫做判别学习算法(discriminative learning algorithms)。 新的这种学习方法,名字叫做生成学习算法(generative learning algorithms),它不直接求P(Y|X),而是根据贝叶斯公式,可以看到,通过求P(X|Y)与P(Y)及P(X),就能得原创 2016-06-29 16:30:37 · 639 阅读 · 0 评论 -
初学ML笔记N0.3——凸优化、拉格朗日对偶
凸函数定义凸优化,即指的是对凸函数的一类优化问题。所以,首先,应该明白什么是凸函数。 在同济教材里,判断某个点处的凹凸性,用的是二阶导数的正负号来判断。小于0,是凸的;大于0,是凹的。但是,国外的凹凸性定义跟我们是相反的,这点得注意。以下讨论,我们按国外的定义来。 按数学定义,凸函数定义为: 图里的表示方式有点特别。但是我们把 θx+(1-θ)y 化简为 θ(x-y)+ y 后,把 (x-y)原创 2016-07-09 21:36:44 · 4019 阅读 · 0 评论 -
初学ML笔记N0.4——梯度下降的优化
关于优化,有两个方向可以考虑。第一个方向是关于学习率的优化。在迭代过程中,学习率一直是保持不变的。那么,能否在迭代过程中不断修正学习率,加快收敛速度呢?第二个方向是关于收敛方向。一般来说我们是直接选择负梯度方向进行收敛,(考虑一维变量的简单情形,也就是用一阶导做了一个线性方向的下降)。如果我们不选择负梯度方向,而选择与其有一定夹角的方向,收敛速度又会怎么变呢?优化学习率梯度下降公式: 在以上公原创 2016-07-11 14:47:54 · 873 阅读 · 0 评论 -
初学ML笔记NO.5——关于熵
注:这篇笔记仅仅记录关于熵的一些知识点备忘。对于最大熵模型的使用,有待做进一步了解。熵的定义一个随机变量X,其取值为{x1,x2,x3…xk},则我们定义其信息量为: 将p(x=xi)写为通式,则得到熵的数学定义: 熵是随机变量不确定性的度量,不确定性越大,熵越大;当随机变量退化为定值(即概率为1),熵就变为0了。注:均匀分布是“最不确定”的分布,因为我们没有任何信息时,一般都会把所有情况作为等可原创 2016-07-14 19:27:25 · 641 阅读 · 0 评论 -
初学ML笔记N0.6——聚类方法
聚类的定义聚类就是按数据的相似性,将其划分为多个类别,从而使内别内的相似度大,内别间的相似度小。它是一种无监督学习方式,即不需要先给定样本进行学习。相似度的度量方式聚类的目的就是为了将相似样本的样本分到同一个类别里。那么,首先要考虑的便是如何度量这个相似。下面给出几种常见的度量方式: 闵可夫斯基距离里,当p=2时,便是我们熟知的欧氏距离,可见,它的适用范围属于能在坐标轴里描绘的点的样本集。原创 2016-07-14 22:05:35 · 1605 阅读 · 0 评论 -
朴素贝叶斯实例——邮件分类
朴素贝叶斯在文本分类方面使用比较广,即使文本单词之间在现实生活中并不是独立的变量,但是使用朴素贝叶斯进行分类还是能达到很好的效果。 朴素贝叶斯的一个实例就是分辨邮件是否是垃圾邮件,其过程如下。 1.首先我们是存在一定的训练集供我们来建立模型。在已有的实例集里,我们通常是用一部分来作为训练集,剩下的部分作为测试用。 2.从训练集里,我们要计算如下几个参数:正常邮件的概率,即P(Y=0)垃圾邮原创 2016-06-29 20:09:35 · 3153 阅读 · 0 评论 -
最小二乘与梯度下降的关联与区别
共同点两者都是求下图等式的极值: 最小二乘最小二乘直接对其中每个θ求偏导数,如下图: 如上图可以看出,其不需要迭代计算。梯度下降经变换后算法: α为步长。以上为迭代算法,缺点是在接近最小点时,收敛变慢。 附矩阵形式的算法,为非迭代: X向量是训练集的特征向量,Y向量是训练集的真实值向量原创 2016-06-18 12:08:57 · 1296 阅读 · 0 评论 -
决策树与随机森林相关概念及其Python实现
决策树所谓的决策树, 就是一种树形结构。其内部每个节点代表一个特征的测试,每个一个分支代表测试的输出,而每个叶子节点则代表一种类别。 而随机森林,就是指的一群决策树所组成的一个森林。当一个新的样本需要归类,它的结果不是仅仅取决于某一刻决策树的结果,而是让森林里所有的决策树进行投票,选出结果最多的那类作为输出。 决策树形式如下: 构建决策树构建决策树的基本思想是以信息熵为度量,构造一棵熵值下原创 2016-07-20 11:24:23 · 2500 阅读 · 0 评论