qq_42044269-CSDN博客

原创ＡｄａＢｏｏｓｔ元算法提高分类性能

前面介绍了５种不同的分类算法，它们各有优缺点。我们可以将不同的分类组合起来，这种组合结果称为集成算法，或元算法。优点：泛化错误率低，易编码，可以应用在大部分分类器之上，无参数调整。缺点：对离群点敏感。１.ｂａｇｇｉｎｇ：基于数据随机重抽样的分类器构建方法自举汇聚法（ｂｏｏｔｓｔｒａｐ　ａｇｇｒｅｇａｔｉｎｇ），也称ｂａｇｇｉｎｇ方法。是从原始数据集选择Ｓ次后得到Ｓ个新数据集的一种技...

2018-08-28 20:28:44 193

原创机器学习——支持向量机2（SVM）

四，非线性SVM import matplotlib.pyplot as plt import numpy as np import random class optStruct: """ 数据结构，维护所有需要操作的值 Parameters： dataMatIn - 数据矩阵 classLabels - 数据标签 ...

2018-08-09 23:20:20 319

原创机器学习——支持向量机1（SVM）

一. 前言 SMO算法的步骤：步骤1：计算误差：步骤2：计算上下界L和H：步骤3：计算η：步骤4：更新αj：步骤5：根据取...

2018-08-06 22:29:55 663

原创 Spark基础

一，多进程：方便控制资源，以为独享进程空间，但是消耗更多的启动时间，不适合运行那些低延时作业，导致mapreduce时效相差多线程：spark的运行方式，所以spark适合低延迟类型的作业。好处：（1）任务启动速度快（2）同节点上的任务由于在一个进程中，所以共享内存——》适合内存密集任务（加载大量词表的程序）（3）同节点上所有任务运行在JVM进程（Executor）里面，适合Executo...

2018-08-01 22:59:35 120

原创机器学习——logistic回归

一，引言　　假设我们现有一些数据点，我们用一条直线对这些点进行拟合，这个拟合的过程就称作回归。利用logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。我们知道，logistic回归主要是进行二分类预测，也即是对于0~1之间的概率值，当概率大于0.5预测为1，小于0.5预测为0.显然，我们不能不提到一个函数，即sigmoid=1/(1+e...

2018-07-18 15:16:22 185

原创朴素贝叶斯

上面我们提到贝叶斯决策理论要求计算两个概率 p1(x, y) 和 p2(x, y): 如果 p1(x, y) > p2(x, y), 那么属于类别 1; 如果 p2(x, y) > p1(X, y), 那么属于类别 2.这并不是贝叶斯决策理论的所有内容。使用 p1() 和 p2() 只是为了尽可能简化描述，而真正需要计算和比较的是 p(c1|x, y) 和 ...

2018-07-16 16:52:22 143

原创决策树

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征的数据缺点：可能会产生过度匹配的问题使用数据类型：数值型和标称型。#计算数据集的熵 from math import log #导入log函数 def calcShannonEnt(dataSet): numEntries = len (dataSet) #得到数据集的行数 print(...

2018-07-03 16:08:46 156

1.准备工具包：版本是:hbase-0.98.0-hadoop1-bin.tar.gz压缩包本机压缩包在/usr/local/src/下安装:1,解压工具包：tar zxvf hbase-0.98.0-hadoop1-bin.tar.gz2.在目录src下 ls 命令得到解压后的文件: hbase-0.98.0-hadoop13.接着进入hbase-0.98.0-hadoop1目录下在 ls 命令...

2018-05-27 17:23:33 224

原创机器学习-K近邻算法

from numpy import * from os import listdir import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels #k-近邻算法实现 de...

2018-05-24 11:44:07 127

qq_42044269的博客