自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 AdaBoost元算法提高分类性能

前面介绍了5种不同的分类算法,它们各有优缺点。我们可以将不同的分类组合起来,这种组合结果称为集成算法,或元算法。 优点:泛化错误率低,易编码,可以应用在大部分分类器之上,无参数调整。 缺点:对离群点敏感。 1.bagging:基于数据随机重抽样的分类器构建方法 自举汇聚法(bootstrap aggregating),也称bagging方法。是从原始数据集选择S次后得到S个新数据集的一种技...

2018-08-28 20:28:44 193

原创 机器学习——支持向量机2(SVM)

四, 非线性SVM import matplotlib.pyplot as plt import numpy as np import random class optStruct: """ 数据结构,维护所有需要操作的值 Parameters: dataMatIn - 数据矩阵 classLabels - 数据标签 ...

2018-08-09 23:20:20 319

原创 机器学习——支持向量机1(SVM)

一. 前言 SMO算法的步骤: 步骤1:计算误差:                               步骤2:计算上下界L和H: 步骤3:计算η:                                           ​​​ 步骤4:更新αj:                                           步骤5:根据取...

2018-08-06 22:29:55 663

原创 Spark基础

一, 多进程:方便控制资源,以为独享进程空间,但是消耗更多的启动时间,不适合运行那些低延时作业,导致mapreduce时效相差 多线程:spark的运行方式,所以spark适合低延迟类型的作业。好处:(1)任务启动速度快(2)同节点上的任务由于在一个进程中,所以共享内存——》适合内存密集任务(加载大量词表的程序)(3)同节点上所有任务运行在JVM进程(Executor)里面,适合Executo...

2018-08-01 22:59:35 120

原创 机器学习——logistic回归

一,引言   假设我们现有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作回归。利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。       我们知道,logistic回归主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0.显然,我们不能不提到一个函数,即sigmoid=1/(1+e...

2018-07-18 15:16:22 185

原创 朴素贝叶斯

上面我们提到贝叶斯决策理论要求计算两个概率 p1(x, y) 和 p2(x, y):        如果 p1(x, y) > p2(x, y), 那么属于类别 1;        如果 p2(x, y) > p1(X, y), 那么属于类别 2.这并不是贝叶斯决策理论的所有内容。使用 p1() 和 p2() 只是为了尽可能简化描述,而真正需要计算和比较的是 p(c1|x, y) 和 ...

2018-07-16 16:52:22 143

原创 决策树

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征的数据缺点:可能会产生过度匹配的问题使用数据类型:数值型和标称型。#计算数据集的熵 from math import log #导入log函数 def calcShannonEnt(dataSet): numEntries = len (dataSet) #得到数据集的行数 print(...

2018-07-03 16:08:46 156

原创 hbase配置

1.准备工具包:版本是:hbase-0.98.0-hadoop1-bin.tar.gz压缩包本机压缩包在/usr/local/src/下安装:1,解压工具包:tar zxvf hbase-0.98.0-hadoop1-bin.tar.gz2.在目录src下 ls 命令得到解压后的文件: hbase-0.98.0-hadoop13.接着进入hbase-0.98.0-hadoop1目录下在 ls 命令...

2018-05-27 17:23:33 224

原创 机器学习-K近邻算法

from numpy import * from os import listdir import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels #k-近邻算法实现 de...

2018-05-24 11:44:07 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除