![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 66
chixujohnny
蚂蚁金服-高级算法工程师
展开
-
决策树: ID3算法
在聚类算法(一)中讲到,K-means算法可以完成很多分类任务,但是最大的缺点就是无法给出数据的内在含义,决策树的主要形式就在于数据形式非常容易理解。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。使用数据类型:数值型和标称型。伪代码如下:检测数据集中每个子项是否属于同一分类: if so retu原创 2015-12-29 22:08:05 · 1033 阅读 · 0 评论 -
数据预处理之 标准化/正则化 处理
标准化(Scale)和正则化(Normalization)是两种常用的数据预处理方法,其作用是让数据变得更加“规范”一些。在文本聚类等任务中使用的比较多。针对某数据,如果不适用数据标准化、正则化,展示的情况如下图1.数据标准化公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来原创 2017-01-08 09:10:12 · 12172 阅读 · 0 评论 -
聚类效果好坏的评价指标
原文标题:《Understanding of Internal Clustering Validation Measures》发表在2010IEEE International Conference on Data Mining 应该译为“内部聚类效果测量的一些理解”,我译成了大白话,也没错,这篇文章讲的就是如何评价你聚类好坏的。下面译文开始:#--翻译 2016-07-07 18:33:08 · 97100 阅读 · 22 评论 -
Andrew Ng 机器学习笔记(七)
最优间隔分类器问题今天还是接着上一期讲支持向量机的问题,但是首先会先讲最优间隔分类器问题。对偶问题对偶问题是这样的,并且,通常情况下d^*<=p^*,p^*是原始最优化问题的值,换句话说,通常情况下,对某个函数取max min的值,总是小于等于其取min max的值。但事实证明,在某种特殊情况下,这两个最优化问题会取相同的值,原始问题会和对偶问题取相同的值,这时你可原创 2016-03-14 16:54:24 · 511 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(六)
朴素贝叶斯算法在上节课中,Andrew将邮件过滤系统中使用了朴素贝叶斯算法如何将邮件进行垃圾分类。有两个性质,一个是每个特征都只有0和1的取值,也就是说只有出现和不出现这两种情况;第二,特征向量的长度应该等于词典中词的数目。但是有个问题,只能知道某个词是否出现了,但是不知道某个词出现的次数。我们第一个讲的分类器是logistic回归,假设形式是一个公式,当假设值小于0.5时原创 2016-03-13 21:00:09 · 752 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(一)
第一节课也没讲什么主要讲了一下什么是机器学习,机器学习能做什么,未来的前景等等。知识上讲了:1)什么是监督学习监督学习就是说你应该有比较大量的训练集来让机器进行学习,随后机器来进行某种预测。他举例是分类算法,分类算法通过之前的训练集来了解什么样的样本更具有某种特性。2)什么是非监督学习非监督学习就是说机器的自我学习是不需要任何训练集的,随意给一组数据就能够进行学习。原创 2016-03-09 14:43:31 · 645 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(三)
欠拟合与过拟合的概念如果我们以一个房价的训练集来做出一个线性的预测,如果我们做一个一次函数,那房价的预测线条应该是一个向上攀升的直线;如果做一个二次函数,可能有些部分会陡一点有些部分会平缓一点,像是右边那样;如果是6次函数,那可能就这样了。我们可以发现一点,如果用一次函数表示,那么数据中某些非常明显的模式没有被正确的表示出来,我们叫它“欠拟合”,如果用6次函数,这种算法仅仅反映了所给特原创 2016-03-10 18:41:11 · 628 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(五)
生成学习方法首先先说一下Logistic回归的工作方式,如果这是我们已知的一组训练集,那么它的工作方式就是观察这组数据,并尝试找到一条直线并将图中的x和o分开,就算有噪声数据也可以尽可能的分开,这一过程是要经过很多次迭代才能完成的,Logistic回归属于一种分类算法。什么是生成学习?现在遇到了这样一个问题,我需要设计一种算法来预测我的病人的肿瘤是恶性的还是良性的,首先原创 2016-03-12 16:53:08 · 502 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(四)
牛顿方法今天这堂课讲的是一种不同的用来进行模型拟合的算法,例如可以对logistic回归模型进行拟合,并且这个算法的运行速度会比梯度上升算法快很多,这个算法别称作牛顿方法。下面提出了一种多项式分布式的方法,这种方法可以将k个种类的数据分成k类,比如说,过来一个邮件,这个邮件的主体可能有多种,通过这种算法可以讲邮件的内容通过一些关键词分类到某个栏目中。引入了一个sof原创 2016-03-11 16:12:20 · 414 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(二)
监督学习的应用:梯度下降梯度下降算法思想:先选取一个初始点,他可能是0向量,也可能是个随机点。在这里选择图中这个+点吧。然后请想象一下:如果把这个三位图当成一个小山公园,而你整站在这个+的位置,这时你想下山,并且要用最快的速度下山,于是你环视了一圈周围的地形,找了个坡度最大的位置走了一步。随后继续环视一圈,再走你认为能最快下山的一步,以此类推,路线如下图所示:可原创 2016-03-09 16:27:14 · 1260 阅读 · 0 评论 -
SVD:奇异值分解
今天来讲讲SVD是怎么回事首先说说什么是SVD,这货可不是SVM,SVD(Singular Value Decomposition)是奇异值分解的缩写,该方法应用在生物信息学到金融学等很多应用之中,SVD都是提取信息的强大工具。下面讲讲这个奇异值分解的流程:1)首先你要知道,SVD是应用在矩阵上的,也就是说,你的问题如果能表达成一个二维矩阵,那么就基本能够使用SVD,为什么说“基本原创 2016-03-20 16:23:49 · 3020 阅读 · 0 评论 -
Python机器学习环境搭建 for mac
这几天一直在写有关机器学习的算法,以kaggle上面的比赛为主,都是入门赛,一般在github上都能找到做过的人,还是挺有指导意义的。随手记录一下最快的Python机器学习环境搭建流程,让初学者少浪费一些时间。1.如果你想省事一劳永逸,推荐你这种办法,安装Anaconda,这个包集成了你目前水平能用到的所有Python开发包,pc/mac平台都有,一次安装,一劳永逸!百度去官网下载原创 2016-03-17 20:21:47 · 6559 阅读 · 0 评论 -
Andrew Ng 机器学习笔记(八)
顺序最小优化算法本节课的任务是完成对SVM算法的讲解,首先讲解一下什么是核,之后我们会讲L1 norm Soft Margin软间隔SVM,是SVM的一种变化形式,可以用来处理非线性分割的数据,最后讲一下SMO算法,这个算法主要讲我们上一次提出的优化问题。支持向量机的思想是,在算法中,每一个内积(并不太懂内积是什么,公式太复杂了。。。),将他们转换成可以高效计算的函数,这样原创 2016-03-15 20:40:50 · 663 阅读 · 0 评论 -
Sigmoid function 的数学原理
Sigmoid function详解本文阅读对象为有一定machine learing基础,并且在模型的数学含义层面有意愿探索的同学。什么是Sigmoid function一提起Sigmoid function可能大家的第一反应就是Logistic Regression。我们把一个sample扔进sigmoid中,就可以输出一个probability,也就是是这个sample属于第一类或第二类的概率原创 2017-11-26 20:31:47 · 11050 阅读 · 6 评论