2018年04月_努力努力再努力_qiqijia

12月 07月 04月 03月

原创 AdaBoost集成方法

集成方法：通过组合多个分类器的分类结果，获得比简单的单分类器更好的分类结果 AdaBoost：自适应boosting，训练数据中的每个样本，并赋予一个权重，构成权重向量D。开始权重初始化为相等的值，先在数据集上训练一个弱分类器，计算分类器的错误率，再在同一数据集上再次训练弱分类器，在第二次训练中，增加分类错误的权重，减少分类正确的权重。基于单层决策树构建弱分类器：单层决策树...

2018-04-28 22:09:57 643

原创 Logistic回归

Logistic回归为了寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程由最优化算法完成，使用梯度上升算法和随机梯度上升算法from numpy import *# Logistic回归梯度上升优化算法# 打开并读取文件，将数据和类别标签分开存储def loadDataSet(): dataMat = [] labelMat = [] fr = open('E...

2018-04-22 19:11:51 193

原创朴素贝叶斯

使用概率分布进行分类，根据概率大小决定分类结果有标签的数据分类，构建词向量和标签def loadDataSet(): postingList =[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', ...

2018-04-18 22:55:33 206

原创决策树

决策树用于标称型数据的分类，首先要构造决策树，使用信息增益选择最好的数据集划分方式。from math import log# 计算给定数据集的香农熵def calcShannonEnt(dataSet): # 实例总数 numEntries = len(dataSet) # 对于数据集中的每一个数据，获得最后一列的键值，如果该键值在数据字典中不存在，扩展数据字典。 ...

2018-04-11 17:10:22 224

原创 kNN算法

kNN算法的处理步骤： 1 收集数据 2 准备数据，距离计算所需要的数值计算 3 分析数据 4 测试算法，计算错误率 5 使用算法，判定输入的数据处于哪个分类实例：改进约会网站的配对效果 1 准备数据，从文本文件中解析数据，将数据处理成分类器可以接受的格式 # 从文本中解析数据，处理输入格式问题，将字符串转化为训练样本矩阵和类标签向量def fileT...

2018-04-08 21:40:58 291