机器学习
在这个专栏中主要讲结解机器学习的相关概念和分类器等算法的原理。部分会有通过python实现。
JohnsonSmile
这个作者很懒,什么都没留下…
展开
-
主成分分析法PCA(二):python实现
三:算法代码这里我将代码分享给大家,但大家使用时请附上来源!!import numpy as np;class PCA: def __init__(self,rate=0.85,is_normal=False): self.rate = rate; self.is_normal=is_normal; def average(self,x,...原创 2019-03-30 22:43:34 · 1366 阅读 · 0 评论 -
主成分分析法PCA(一):算法原理
一:算法概述:主成分分析法,principle component analysis,PCA。也称主分量分析,是一种大样本,多变量数据间内在关系的一种方法。这种方法利用降维的思想,通过向量变换的方法将众多线性相关指标转换成少数线性无关的综合指标,从而切断相关的干扰,指出主导成分,作出更准确的估量。PCA在几何上表现为:将原坐标变换成新正交坐标系,使之指向样本点散步最开的p个正交方向。在...原创 2019-03-30 22:39:56 · 4665 阅读 · 0 评论 -
关于原始特征、有效特征、特征提取、特征选取
一:特征:特征分为原始特征、有效特征。1.1 原始特征:可以通过测量直接得到的特征。原始特征通常有很大冗余,如果直接将原始特征作为分类特征送入分类器,不仅使分类器复杂、计算量大,且分类错误率不一定小,因此有必要减少特征数目,以获取少而精的分类特征。1.2 有效特征:有代表性、分类性能好的特征(通常是采用特征提取、特征选取方法获得的)。特点:①类内稳定,即类内差异小,...原创 2019-03-30 14:49:45 · 3892 阅读 · 0 评论 -
过度拟合 Over fitting
一:说明过度拟合是指模型与训练数据拟合较好,训练误差很小或没有训练误差,但不能很好地推广到不可见数据。或者说在实际的整个数据分布(包含训练集以外实例)上表现不好时,称之为该模型存在过度拟合。由于测试学习算法是否成功在于算法对于训练中未见过的数据的预测执行能力。因此换句话说,模型的训练误差小,泛化误差高,两者间差距过大时,我们称之为该模型存在过度拟合。二:产生的原因通...原创 2019-03-30 03:53:46 · 2886 阅读 · 0 评论 -
关于训练误差、测试误差、泛化误差
我们在学习模式识别的时候,总是会遇到一些专业词汇,而其中有的专业词汇叫人傻傻分不清。今天我就来说说训练误差、测试误差、泛化误差到底是什么,区别所在。对于分类学习算法,我们一般将样本集分为训练集和测试集,其中训练集用于算法模型的学习或训练,而测试集通常用于评估训练好的模型对于数据的预测性能评估。而这个先后顺序就是先将算法在训练集上训练得到一个模型,然后在测试集上评估性能。这个...原创 2019-03-30 03:27:24 · 25613 阅读 · 0 评论 -
交叉验证 cross validation
交叉验证 cross validation:一:基本概念 交叉验证是机器学习在建立模型和验证模型参数时常用的方法。通常用于原始数据不是很充足时,使用交叉验证来重复的使用数据,把原始数据集进行切分组合成多组不同的训练集(训练模型)和测试集(评估模型预测好坏)。 交叉的概念指拆分组合的训练集和测试集的数据是交叉的,比如训练集的样本数据可能下一次就会出现在测试集中。[...原创 2019-03-22 00:36:52 · 856 阅读 · 0 评论 -
机器学习常用概念
训练集 构成监督学习经验的案例集合。 测试集 评估算法识别效果的案例集合。 训练误差 模型在训练集上表现的误差。 测试误差 模型在测试集上的误差。 泛化 机器学习的核心,是在训练集上训练好的模型在...原创 2019-03-21 03:12:49 · 187 阅读 · 0 评论 -
模式识别具体过程
原创 2019-03-19 20:54:43 · 2618 阅读 · 0 评论 -
机器学习相关概念
一:机器学习形式:此学习方式中,数据处理以人为标注为标准判断。分以下两种方式:1)监督学习:即学习目标采用具有人工标注的数据辅助完成学习,即样本数据带标签(data,label) 特点:效果显著,成本昂贵。 经典算法:BN、SVN、KNN、CBR等2)无监督学习:与监督学习相对,使计算机自身自动学习,以多种...原创 2019-03-16 23:33:25 · 199 阅读 · 0 评论 -
决策树原理
一、概述决策树是一种功能强大而且较为受欢迎的分类预测工具。这种工具能以树形图将对实例分类时产生的规则表达出来。决策树是一种典型的非线性分类器。二、基本原理2.1 表现形式决策树基本组成部分:决策节点、分支、叶子。其中每个分支都是一个新的决策节点或者叶子。根节点:决策树最上边(开始)的节点。决策节点:一个问题或决策,通常对应分类对象的属性。叶子:一种可能的分...原创 2019-03-25 23:49:51 · 1404 阅读 · 0 评论 -
集成学习
原创 2019-03-18 19:17:28 · 121 阅读 · 0 评论 -
神经网络原理及python实现(二)
因为CSDN上编辑公式有点麻烦,就偷个懒,把文章转成图片了哈哈原创 2019-03-18 00:49:05 · 219 阅读 · 0 评论 -
神经网络原理及python实现(三)
四:ANN Classifier算法实现:import numpy as np;from numpy import random,mat,multiply,sqrt;import scipy.special as ss;import random as R;import copy;from sklearn.neighbors import KNeighborsClassifier;...原创 2019-03-18 00:37:39 · 323 阅读 · 0 评论 -
神经网络原理及python实现(一)
神经网络算法原理及编程实现Author:shoupt,Johnson·smith一:神经网络算法概述: ANN(Artificial Neural Network)算法是一种模拟动物神经网络行为特征的算法。这种算法是由大量简单的神经元(或神经节点,计算单元)构成的非线性系统。它在一定程度上模拟了人脑神经系统的信息处理、存储和检索功能,它是对人脑神经网络的某种简化、抽象和模拟。...原创 2019-03-18 00:25:37 · 912 阅读 · 0 评论 -
数据预处理:归一化
由于进行分类器或模型的建立与训练时,输入的数据范围可能比较大,同时样本中各数据可能量纲不一致,这样的数据容易对模型训练或分类器的构建结果产生影响,因此需要对其进行归一化处理。那就是将该样本(样本集中第i行数据)归一到范围(0,1)之间。一种简单而快速的标准归一化处理算法是线性转换算法,最为常见的是如下形式:假设x为样本,y归一化后数据,则有y=(x-min)/(max-min)因此如果一...原创 2019-03-16 23:02:03 · 968 阅读 · 0 评论 -
分类器的强弱之分
文章属于原创,转发或引用请必注明出处。@all一:集成学习与分类器不得不说的那点儿事儿研究或学习集成学习的朋友都知道,集成学习是对原始样本集进行重采样,然后得到若干数据集,每一个数据集单独训练一个基础分类器,然后对于测试或未知数据进行预测,每一个分类器都得到一个预测结果,然后使用集成方法对得到的若干个结果进行融合决策(比如多数表决等等)得到最终结果。以此来提高单一分类器的准确率。然而,集成学...原创 2019-03-08 22:10:25 · 3362 阅读 · 0 评论 -
KNN算法原理及编程实现
Author:shoupt-Johnson•smith原创,转载者请注明来处一:KNN算法概述:KNN算法又称之为K-最近邻算法。它是一种基本分类算法。其原理大致如下:即一个样本在某个特征空间中有k个最近邻的样本,而这些中大多数样本属于同一类别,则该样本所属类别应与该类别一致。同时,该样本具有这个类别的样本特征。如此该算法在确定分类的决策上只通过最近邻的k个样本的类别来决定待分类样本的所...原创 2019-02-25 03:27:40 · 1796 阅读 · 0 评论