- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 AdaBoost集成方法
集成方法: 通过组合多个分类器的分类结果,获得比简单的单分类器更好的分类结果 AdaBoost: 自适应boosting,训练数据中的每个样本,并赋予一个权重,构成权重向量D。开始权重初始化为相等的值,先在数据集上训练一个弱分类器,计算分类器的错误率,再在同一数据集上再次训练弱分类器,在第二次训练中,增加分类错误的权重,减少分类正确的权重。 基于单层决策树构建弱分类器:单层决策树...
2018-04-28 22:09:57
643
原创 Logistic回归
Logistic回归为了寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程由最优化算法完成,使用梯度上升算法和随机梯度上升算法from numpy import *# Logistic回归梯度上升优化算法# 打开并读取文件,将数据和类别标签分开存储def loadDataSet(): dataMat = [] labelMat = [] fr = open('E...
2018-04-22 19:11:51
193
原创 朴素贝叶斯
使用概率分布进行分类,根据概率大小决定分类结果有标签的数据分类,构建词向量和标签def loadDataSet(): postingList =[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', ...
2018-04-18 22:55:33
206
原创 决策树
决策树用于标称型数据的分类,首先要构造决策树,使用信息增益选择最好的数据集划分方式。from math import log# 计算给定数据集的香农熵def calcShannonEnt(dataSet): # 实例总数 numEntries = len(dataSet) # 对于数据集中的每一个数据,获得最后一列的键值,如果该键值在数据字典中不存在,扩展数据字典。 ...
2018-04-11 17:10:22
224
原创 kNN算法
kNN算法的处理步骤: 1 收集数据 2 准备数据,距离计算所需要的数值计算 3 分析数据 4 测试算法,计算错误率 5 使用算法,判定输入的数据处于哪个分类实例:改进约会网站的配对效果 1 准备数据,从文本文件中解析数据,将数据处理成分类器可以接受的格式 # 从文本中解析数据,处理输入格式问题,将字符串转化为训练样本矩阵和类标签向量def fileT...
2018-04-08 21:40:58
291
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人