机器学习
文章平均质量分 75
小猫奇点
To be or not to be,it's up to you!
展开
-
EM算法原理及其在NLP中的应用
EM算法是一种迭代算法,全称为期望极大算法(expectation maximization algorithm),用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。一、EM算法的原理EM算法输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ);输出:模型参数θ(1)选择参数的初值θ0,开始迭代;(2)E...原创 2019-01-17 11:07:34 · 1756 阅读 · 0 评论 -
机器学习之决策树学习笔记
一、决策树学习的目标根据给定的训练数据集,归纳出一组分类规则,构建决策树模型,使得模型能对实例进行正确划分。 二、决策树模型①决策树模型是基于特征,对实例进行分类的树形结构。②决策树模型的组成结构有:1. 结点(node)结点分为内部结点(internal node)和叶结点(leaf node),每一个内部结点对应着一个特征或属性,每一个叶结点对应着一个类2. ...原创 2018-05-11 14:13:43 · 1204 阅读 · 0 评论 -
机器学习之朴素贝叶斯学习笔记
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。一、朴素贝叶斯法理论知识1. 朴素贝叶斯法的学习与分类1.1基本方法:①先验概率分布 ②条件概率分布 ③条件独立性假设 条件独立假设是说用于分类的特...原创 2018-05-11 14:30:14 · 705 阅读 · 0 评论 -
机器学习之感知机
今天,我将和大家一起学习机器学习中的感知机算法。 感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。因此,感知机学习旨在求出将训练数据进行线性划分的分离超平面。为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型,从而实现利用得...原创 2018-05-15 11:34:31 · 380 阅读 · 0 评论 -
机器学习实战之K-近邻算法(一)
跟着《机器学习实战》书中代码进行实现时所踩的坑,给大家提个醒哈~ 问题1来源:从文本文件中解析数据描述:classify0(inX, dataSet, labels, k)中,sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1), reverse = True)编译通不过,报错:...原创 2018-08-09 16:42:06 · 244 阅读 · 0 评论 -
机器学习实战之决策树
问题1来源:在python中使用Matplotlib注解绘制树形图描述:getNumLeafs(myTree)和getTreeDepth(muTree)中,firstStr = myTree.keys()[0]等带有myTree.keys()的地方都编译通不过报错:TypeError: 'dict_keys' object does not support indexing解决办法:将函数...原创 2018-08-29 12:01:30 · 702 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯
问题1来源:使用朴素贝叶斯过滤垃圾邮件描述:spamTest()和textParse()读文件时编译通不过报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence TypeError: cannot use a string patte...原创 2018-08-30 14:18:54 · 235 阅读 · 0 评论 -
机器学习实战之逻辑斯蒂回归Logistic
问题1来源:逻辑斯蒂回归——使用梯度上升找到最佳参数描述:gradAscent()编译通不过报错:NameError: name 'mat' is not defined解决办法:在所有代码前引入numpy包,即插入代码:from numpy import *原因:未引入numpy包,但使用了numpy包中的mat、shape、ones函数,导致出错问题2来源:逻辑斯蒂回归——画出...原创 2018-09-03 14:27:41 · 2168 阅读 · 0 评论 -
机器学习之集成学习
一、集成学习概述集成学习(Ensemble Learning)有时也被称为多分类器系统(multi-classfier system),是指将多个个体学习器集成或组合在一起,共同完成学习任务,现在已经被广泛用于分类和回归任务中。集成学习的思想来源于“三个臭皮匠赛过诸葛亮”:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分...原创 2018-11-14 11:14:37 · 961 阅读 · 0 评论 -
k-means算法
一、k-means算法概述k-means算法和KNN算法虽然都是以近邻信息来标注类别,但却是两类不同的算法:KNN算法是监督学习中的基本分类与回归算法,而k-means算法是无监督学习中的聚类算法。聚类是指将未标注的样本数据中相似的分为同一类,即“物以类聚,人以群分”。k-means算法是聚类算法中最为简单、高效的核心思想:指定k个初始质心(initial centroids),作为聚类的类别...原创 2019-01-14 11:47:12 · 940 阅读 · 0 评论 -
随机森林
随机森林(Random Forest)的基本思想来源于集成学习(Ensemble Learning)的Bagging方法。如下图所示,Bagging方法的思想是采用自助采样法(Bootstap sampling)进行T次的随机采样,得到T个采样集,对于这T个采样集,分别独立的训练出T个弱学习器,再对这T个弱学习器通过结合策略来得到最终的强学习器。关于集成学习,可参考《机器学习之集成学习》随机...原创 2019-01-15 16:48:33 · 431 阅读 · 0 评论 -
LDA主题模型
一、LDA主题模型概述Latent Dirichlet Allocation模型简称为LDA,2003年由Blei, David M.、Ng, Andrew Y.、Jordan提出,用来推测文档的主题,在机器学习领域主题模型中占有非常重要的地位。LDA将文档集中每篇文档的主题以概率分布的形式表示出来,通过分析并抽取出一些文档的主题分布,便可根据这些文档的主题分布进行主题聚类或文本分类。二、L...原创 2019-03-07 16:31:33 · 833 阅读 · 0 评论