机器学习算法
文章平均质量分 82
王里扬洛夫
人的命运啊,主要是靠个人的奋斗,同时也要考虑历史的行程啊!
展开
-
机器学习算法之SVM的多分类
一、SVM可以直接进行多分类吗 SVM本身是对付二分类问题的,所以在处理多分类的时候需要进行必要的改造。同样是二分类的情况,logistic回归可以直接拓展为softmax多分类。但是SVM如果直接在目标函数上进行修改的话,就是将多个分类面的参数求解合并到一个最优化问题上,显然难度太大,目前也没有任何实际操作的方法。二、SVM多分类间接实现1、1-V-rest:将某一类归为正类,其余全部是负类原创 2017-04-18 20:37:56 · 17537 阅读 · 0 评论 -
机器学习算法之一-logistic回归、softmax模型
开始一个新的系列,换一换口味 分析机器学习算法的一般思路: 1、确定预测函数或者判别函数,一般表示为H函数; 2、确定Cost函数,表示的是预测输出值与训练数据之间的偏差; 3、确定优化算法。一、前言 logistic回归是常用的二分类模型,属于判别模型。softmax模型是logistic回归的多分类拓展。最大熵模型是由最大熵理论推导出来的,推导可以证明最大熵模型的极大似然估计与最大熵模原创 2017-04-01 10:49:13 · 1489 阅读 · 0 评论 -
机器学习算法之SVM(1)结构风险最小化
一、SVM的策略是结构风险最小化 1、几何间隔线性分类器比如感知机,目的是为了在空间中找出一个超平面,这个超平面使得分类错误率最小。在进行分类的时候,数据集中所有的点都对分界面有影响。而SVM中使用几何间隔,就是点到分界面的距离γi\gamma^i,试想如果在某一类中离分界面最近的那个点与分界面的距离越大,显然分类的确信度就越大。所以SVM中对分界面有影响的就是那些距离分界面最近的支持向量而不是全原创 2017-05-04 11:23:01 · 11072 阅读 · 0 评论 -
机器学习算法之SVM(2)松弛变量
离群点 对于(1)中的SVM模型而言,如果在分类的数据集中出现了离群点,必定会造成超平面的移动。如果数据集中出现了离群点,模型应该有一定的容错能力,于是就有了加入松弛变量的新目标函数:minw,b12||w||2+C∑m1ξi,s.t.yi(wTxi+b)≥1−ξi,ξi≥0;i=1,..m;min_{w,b} \frac{1}{2}{||w||^2}+C\sum_1^m\xi_i,s.t.原创 2017-05-04 21:05:17 · 1649 阅读 · 0 评论 -
机器学习算法之SVM(3)核函数
1、映射 想象一下,一个三维空间的立方体,一个顶点与x、y平面接触,其余点z都大于0。现在,想要把立方体的上下各四个点分开,只需要沿着从边的中间画一个超平面即可。但是如果,将这些点直接投影到x、y平面上,那么刚刚还可以分开的两组各四个点就有可能犬牙交错,完全非线性不可分了。把刚刚的过程逆过来,就是非线性不可分情况下的分类方法了: 支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到原创 2017-05-08 21:40:13 · 1033 阅读 · 0 评论 -
机器学习算法之K-means-spark
1 聚类简单回顾一下:首先,随机在点群中选取K个点,作为划分聚落的种子点;然后,求点群中所有的点到这K个点的距离;接下来,将离种子点近的点都移动到种子点附近;最后,不断重复第二和第三步,直到没有点需要移动了。以上只是一个概念的解释,我想这种问题还是必须看看公式才能清楚理解:1、随机选取K个种子点,设为μ1......μk\mu_1......\mu_k;2、对点群中的每一个点计算公式:argminj原创 2017-06-16 11:02:45 · 1421 阅读 · 0 评论 -
机器学习算法之随机森林(1)pyspark.mllib中的RF
spark的persist操作可以使得数据常驻内存,而机器学习最主要的工作——迭代,需要频繁地存取数据,这样相比hadoop来说,天然地有利于机器学习。 ———- 单机版。 至于集群的搭建——现在手头最多两台电脑,后面再折腾。 1、安装pysaprk 1.1 下载安装包 下载jdk压缩包,进入链接 http://www.oracle.com/technetwork/j原创 2017-06-02 22:15:38 · 5255 阅读 · 0 评论 -
机器学习实战(1)信用卡欺诈
The datasets contains transactions made by credit cards in September 2013 by european cardholders. This dataset presents transactions that occurred in two days, where we have 492 frauds out of 284,807原创 2017-06-06 10:29:59 · 3158 阅读 · 0 评论