传统机器学习分类算法的学习
文章平均质量分 78
赵小越
内心戏丰富的的女深井吧
展开
-
统计学习中易混淆概念区分
在本文中,主要记录统计学习方法中,容易被混淆的几个概念的区分和解析。(会不断的进行后续更新)第一,最大似然估计(Maximum likelihood estimation,MLE)和最大后验概率估计(Maximum a posteriori estimation,MAP)二者的基础都是贝叶斯公式推导出来的P(theta|x) = (P(x|thata)P(theta))/P(x)其...原创 2018-06-11 15:41:08 · 602 阅读 · 0 评论 -
线性回归模型的学习
线性回归,首先,第一层意思是线性,也就是最高项为一次;其次,第二层意思是回归的意思,也就是拟合,求那么一条曲线,可以经过这些点。 线性回归的学习主要从三个方面来学习,第一个方面是线性回归模型的基本的概念问题(利用代数法来表示,利用矩阵法来表示);第二个方面是线性模型的扩展;第三个问题是线性模型的正则化问题(L1正则化,L2正则化)。 我...原创 2018-07-23 22:32:00 · 326 阅读 · 0 评论 -
机器学习中常见的特征处理的问题汇总
一切从数据中来,一切依据于数据来进行考虑。脱离数据的特征,是没有灵魂的特征,但我们现在思考的是抽象场景中的特征的通用处理办法嘎。 【特征筛选】肯定从现实生活角度来说,就是请教行家,行家一出手就知有没有。 从数据本身的角度而言,可以分析几类数据的均值情况考虑是否具有区分性,可以分析方差的变化,如果均值没有区分性的时候,考虑方差,如果方差很小的话,说明很平均,很相似...原创 2018-07-30 16:14:16 · 556 阅读 · 0 评论 -
机器学习中数据属性及相关处理总结
想要继续的往前走,必须有深厚的内功,现在就是在修炼内功的时候,其实就是扎马步,略略略。 看到一个问题的求解,首先需要明确我们处理的是什么数据,不同的数据当然要不同的处理呀。数据的属性,也可以叫特征,变量,维度等,我们对属性进行研究,不同的属性给与不同的处理。 属性的划分: 标称属性(分类属性),也就是只具有类别信息,只是一个符号和事物的名称。对于标...原创 2018-07-27 11:54:58 · 2347 阅读 · 0 评论 -
matplotlib的说明
matplotlib的安装说明:在这部分避个坑就好,涉及到了很多的包的安装的依赖关系。主要是numpy,matplotlib,scipy, sklearn包的依赖关系,解决这个问题的最好的解决方案就是放弃pip install numpy好吧,然后自己从网站下载安装包,然后cd到python的pip安装文件夹下,然后pip install **文件,然后安装好文件。按照顺序来进行安装,numpy-...原创 2018-11-08 17:24:55 · 164 阅读 · 0 评论 -
如何定义一个机器学习问题
今日学习的资料是一个博客的内容,原文是英文的,我把它翻译出来,理顺思路,给自己以及大家一些小的启示。如何定义你的机器学习的问题 定义一个正确的机器学习的问题,才是你得到正确解的一个前提,是必要条件。 面对你要求解的问题,可以思考的问题的框架为:1,这是一个什么样的问题。首先,有一个定性的理解,可以用非正式的语言来进行描述,大概知道你要...原创 2018-11-16 11:15:16 · 951 阅读 · 0 评论 -
主动学习的概述
设想一个问题的场景:在监督学习方法中,获得有标注数据是异常困难的,而获得无标签数据时相对容易的,有这个现状的情况下,那我们该如何解决这些问题呢?主动学习就是为了解决此类问题而出现的。本文只是一个概述,主要用来考虑现在的主动学习的研究方向是怎样的。之后会仔细的学习每一个算法。 一般而言,主动学习方法,主要分为二个部分:学习引擎和选择引擎。其中,学习引擎负责维护一个基...原创 2018-11-19 11:31:31 · 4111 阅读 · 0 评论 -
版本空间的简要介绍
一个新的概念,版本空间,但能查到的资料很有限,现把我能查到的资料列举如下,以便大家查阅。版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。版本空间学习是一种机器学习的逻辑方法,特别是二进制分类。版本空间学习算法搜索预定空间的假设,被视为一组逻辑语句。对于二维空间中的“矩形”假设(右图),绿色加号代表正类样本,红色小圈代表负类样...原创 2018-11-22 15:56:52 · 1014 阅读 · 0 评论 -
主动学习,半监督学习的概念的区分
(一)从概念上区分主动学习(active learning)学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价。学习器能够主动的提出一些标注请求,将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。A=(C,L,S,Q,U)其中,C是...原创 2018-11-20 11:27:09 · 5120 阅读 · 2 评论 -
Numpy的基础
Numpy是机器学习的大杀器,是对于python的一个扩充程序库,支持高维度大量的矩阵和数组的运算,并且提供了大量的数学函数库。对于Numpy而言,解除了python的PIL(全局解释器锁),运算效率得到极大的提高。对于Python中的类型是dynamically typed(动态类型), 对于一个object, 里面有很多的信息, 如: a reference count, ...原创 2018-12-27 11:14:19 · 251 阅读 · 0 评论 -
pandas的基础
一个好的机器学习者,首先是一个更好的数据分析者,对于数据分析而言,一个很好用的开源库可以说是pandas库了。而pandas则是基于numpy,再开发的。学好pandas,走遍天下都不怕。 对于pandas而言,有三大数据结构,其中最主要的二个数据结构,分别为series和dataframe, 还有一个为Panel。其实主要说的还是前二种。贴一个学习的链接。https://...原创 2018-12-27 17:14:02 · 337 阅读 · 0 评论 -
matplotlib的基础
通过图表表达会更更容易让人们理解数据,所以,能够很好的掌握matplotlib会让工作变的更加高效。一,修改matplotlib的默认参数对于matplotlib的配置信息是通过配置文件读取的。配置文件提供的几乎所有属性指定的默认值。matplotlib提供了二种修改默认参数的方式,但这种也是很高级的参数了,一般来说,还是用的比较少。第一种是rcParams参数字典,...原创 2018-12-28 20:06:49 · 250 阅读 · 0 评论 -
决策树的学习--并且可视化决策树
在决策树的分类情况中,不需要任何领域知识或者参数设置,因此适合探索式知识发现,并且,其他的分类方法多需要数据归一化处理,但决策树而言,可以不采用数据归一化,直接进行训练,并且决策树是可以进行可视化,看最后的树的形式是怎么样的,这是他的好处。原创 2017-11-06 21:03:40 · 2721 阅读 · 0 评论 -
怎么判断特征选择的好坏
主要参考大神在知乎的回答: 作者:城东 链接:https://www.zhihu.com/question/28641663/answer/110165221 来源:知乎 著作权归作者所有。 http://www.cnblogs.com/jasonfreak/p/5448462.html特征选择在机器学习中至关重要,我们通常认为:数据和特征决定了机器学习的上限,而模型和算法只是在逼近这个上原创 2017-10-26 14:41:43 · 10789 阅读 · 0 评论 -
SVM的学习
SVM重新梳理: 支持向量机(Support vector machines,SVM),是一种二类分类的模型,是一种判别模型,得到决策函数,来进行判断。SVM的基本模型是定义在特征空间上的间隔最大的线性分类器,SVM可以看作是感知机的高级版本,因为感知机只要求正确的对线性可分的数据进行分离就可以,但SVM则要求最大的程度的对其进行分离,而且对...原创 2018-06-19 11:16:46 · 339 阅读 · 1 评论 -
感知机的学习
感知机(perceptron),是一个二分类的线性分类模型。输入空间为欧式空间,输出空间为{1,-1}, 属于判别模型,得到的决策函数,决策函数的物理模型是一个分离超平面,将欧式空间划分为+1,-1二个平面。 模型的表示:F(x) = sign(w*x+b) 假设空间:分离超平面的集合;{f|f(x)=sign(w*x+b)} ,其中w*x+b=0对应于超平面S(分离...原创 2018-06-11 17:32:26 · 269 阅读 · 0 评论 -
k近邻的学习
K近邻法(k-nearest neightbor, K-NN)是一种基本分类与回归的方法。K近邻法的输入为实例的特征向量,对应于特征空间的点,输出为类别,可以是二类,也可以是多类。对给定的实例,根据给定的一个训练集的K个最近邻的类别来多数表决来进行预测。K近邻法不具有显示的学习过程, 而是通过训练数据对特征空间的划分来作为模型,实现判别。是一种判别模型。对于K近邻而言,最重要的三个...原创 2018-06-11 21:16:42 · 1283 阅读 · 0 评论 -
朴素贝叶斯法的学习
朴素贝叶斯(navie Bayes)法,朴素是最高级的词汇,方法真的可以说简单而又高级了。贝叶斯定理,可以说奠定了很多概率研究的基础,通过转换,把因果颠倒,可以求得概率,可以说很amazing的一件事了。 对于朴素贝叶斯而言,除了贝叶斯定理以外,需要注意的一个假设前提就是,特征条件独立假设,这个假设是说,A特征和B特征是独立的,P(A,B|w)=P(A|w)P(B|w)。 ...原创 2018-06-12 17:25:38 · 220 阅读 · 0 评论 -
决策树的学习
决策树,从名字上看,就知道其模型的结构为树结构,决策树既可以用于分类,也可以用于回归之中。在分类问题中,我们可以认为其是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习过程中,利用训练数据和损失函数最小化的原则来构建决策树模型,在分类过程,利用模型对新数据进行分类。直接构建模型,说明决策树是一个判别模型。在学习过程,决策树有主...原创 2018-06-14 09:03:21 · 1120 阅读 · 0 评论 -
逻辑斯蒂回归的学习
逻辑回归,虽然叫做回归问题,但其确实不是用于回归的场景,而是应用于分类的场景中。逻辑回归可以用于二分类,也可以用于多分类中。是一种判别模型,由条件概率分布来确定。 逻辑斯蒂回归(logistic regression),是一种对数线性模型,常用于分类。是判别模型,由条件概率分布P(Y|X)来确定。 逻辑斯蒂回归的数学基础是逻辑斯蒂分...原创 2018-06-14 17:14:59 · 1829 阅读 · 0 评论 -
最大熵模型的学习
最新思考: 最大熵模型(maximum entropy model),由最大熵原理推导实现,是一种判别模型,也是利用条件概率P(Y|X)来进行判断。要想知道最大熵模型,首先需要从最大熵定理来说起。 香农爸爸真的是强,对于通信专业的我们从本科就沐浴在了香农爸爸的学识中,熵是一种什么东西呢,他是对于不确定性的一种度量的手段,表明了蕴含信息...原创 2018-06-15 10:58:53 · 666 阅读 · 1 评论 -
集成学习的学习
首先,第一点,说明什么是集成学习,就是把多个分类的方法集中起来,然后集中大家的智慧来进行判断。在集成学习中,我们主要说的是三种框架:boosting, bagging, stacking。具体介绍的为集成学习方法的介绍。新一轮的学习中需要牢记的点: 提升方法(boosting),是一种常用的统计学习方法,是判别模型,最后得到...原创 2018-06-23 11:41:14 · 342 阅读 · 0 评论 -
EM算法的学习
EM算法是一种迭代算法,用于求含有隐变量的概率模型参数的极大似然估计,用简单粗暴的语言来解释,就是求参数的值,也就是求解的一个过程,但参数的求解中,与普通的简单的参数的求解不同,是一种带有隐变量(hidden variable)的模型的参数求解的方法。来解读EM算法,首先是E,期望(Expectation),其次是M,最大(Maximization),所以这一算法称为期望极大算法(...原创 2018-06-24 16:02:38 · 810 阅读 · 2 评论 -
优化算法的学习
对于机器学习,优化算法,是指求解最优化问题的方法,这对于解决问题至关重要,什么时候用什么方法,以及如何推导,现记录如下,以防止以后忘记,都用大白话来说,尤其需要掌握其精髓。 最优化问题,大概可以分为二类,一类是有无约束条件的优化问题,一类是有约束问题的优化。在有约束问题的优化中,我们对于约束分类为等式约束和不等式约束。依次介绍。 对于无约束问题,我...原创 2018-06-16 17:18:05 · 429 阅读 · 0 评论 -
统计学习方法概论章节思考和笔记
前一个月才学习了李航的这本统计学习方法,然后,前二天再回去看的时候,已经忘的差不多了,又得重新来学习一遍嘎。之前得笔记是在纸上写得,那这一次的思考和记录就用电子版的把,加入自己的理解的精简版笔记。 数据之中蕴含很多的意义,我们通过利用概率统计的方式来将规律挖掘和表示出来,然后对数据进行预测的过程。我们现在接触的机器学习主要指的是统计机器学习。统计机器学习的基本假设是同类数...原创 2018-06-11 10:27:05 · 190 阅读 · 0 评论 -
Django基础知识
因为毕设需要,赶鸭子上架,所以,必须用最短的时间搞定django,好了,说干就干。 知识部分的介绍,我就略过,贴一个比较好的django介绍好了。http://djangobook.py3k.cn/2.0/chapter01/一,下载django模型pip2 install django(因为我共存了python2和python3)配置django的路径...原创 2019-01-04 10:20:26 · 744 阅读 · 0 评论