机器学习
文章平均质量分 55
由浅入深、逐步深入了解学习机器学习中的各种算法
罗辑罗辑
养的胸中一种恬静
展开
-
反思与计划
没啥摘要,自己对自己瞎总结。原创 2023-01-12 11:57:02 · 596 阅读 · 2 评论 -
GAN(生成对抗网络)Matlab代码详解
这篇博客主要是对GAN网络的代码进行一个详细的讲解:首先是预定义:clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些 。而clear用于清空环境变量。两者是不同的。%%%装载数据集train_x=load('Normalization_wbc.txt');%train_x就是我们希望GAN网络能够生成与其相似的数据。[m,n]=size(train_x);%m表示train_x有多少行,n表示有多少列。%%%定义模型generator=n原创 2022-04-02 12:24:19 · 11763 阅读 · 56 评论 -
Generative Adversarial Networks 生成对抗网络 Matlab实现与讲解
GAN是一种特殊类型的多层前馈神经网络。整体上看,它就是一个多层前馈神经网络;分开来看,其包含生成器(Generator)与判别器(Discriminator)两个网络(多层前馈神经网络)。GAN属于生成模型,它的主要作用就是生成与训练数据相似的数据。GAN的核心思想:GAN之所以能够生成与训练数据相似的数据,是因为有生成器,生成器就是负责生成样本的。而判别器是负责判定生成器生成的数据质量高低与否的,以此来提高生成器的质量。下面将从生成器与判别器两部分进行一个简单的原理介绍。生成器:首先,生成器是一原创 2022-04-01 12:08:02 · 4999 阅读 · 44 评论 -
从全局到局部审视离群点检测(Outlier Detection)
离群点检测(outlier detection)在很多领域都具有广泛的应用。离群点检测算法也各种各样,各种类型各种算法难以计数。我的研究是提出新的离群点检测算法(模型)。离群点检测整体我认为包含有3部分,分别是:数据集,模型,结果。数据集离群点检测所用的数据集一般包含有合成数据集与真实数据集。合成数据集真实数据集真实数据集更加符合实际应用中的情况,用真实数据集将使得算法的结果具有更强的说服力。模型结果...原创 2021-06-15 21:25:38 · 1773 阅读 · 4 评论 -
特征工程:数值特征
机器学习能够处理的特征也就只有数值类型的特征。数值型数据的特征工程技术是非常基本的,只要原始数据被转换成数值型特征,就可以用现有的模型。要对数值型数据进行合理性jiancha原创 2021-06-10 19:01:49 · 329 阅读 · 0 评论 -
PCA的Matlab实现与分析
PCA(Principal Component Analysis)在机器学习领域中,是很常见的一种降维的方法。PCA的主要思想:将原始高维数据集中的点,映射到低维的超平面中,。原创 2021-06-10 12:03:38 · 1373 阅读 · 8 评论 -
投稿之后的思考
离群点检测(outlier detection)在很多领域都具有广泛的应用。离群点检测算法也各种各样,各种类型各种算法难以计数。我的研究是提出新的离群点检测算法(模型)。离群点检测过程ke原创 2021-06-07 19:10:38 · 214 阅读 · 0 评论 -
基于自编码器的离群点检测算法的Matlab版实现
基于自编码器的无监督离群点检测算法的核心思想是:通过将待检测数据集输入自编码器进行训练,训练完成后,那些难以被重构的对象(即重构误差较大的对象)被认为是离群点。基于AE的outlier detection存在的前提,也就是有一个假设条件存在,即:离群点难以被自编码器在输出层重构。基于AE的outlier detection的Matlab版实现如下:function [outputArg1,outputArg2] = GD_AE_OD(inputArg1,inputArg2)%SIMPLEBP原创 2021-01-07 12:18:04 · 848 阅读 · 3 评论 -
基于KNN的离群点检测算法的Matlab版实现
基于KNN的outlier detection是一种很简单高效的离群点检测算法,其核心思想是:通过计算对象与其k个近邻的距离之和作为离群值OF,OF值越高,越有可能是离群点。基于KNN的outlier detection的Matlab版实现:function [outputArg1,outputArg2] = KNN(inputArg1,inputArg2)%KNN 此处显示有关此函数的摘要% 此处显示详细说明x=load('Normalization_wbc.txt');y=load原创 2021-01-07 12:09:39 · 3282 阅读 · 13 评论 -
LOF(local outlier factor)算法的Matlab版本实现
LOF算法是一种基于密度的无监督离群点检测算法,其核心思想是:通过比较对象xi与其邻居密度的相似性程度,如果越不相似,即xi的LOF值越大于1,则其是离群点的可能性越高。下面给出了LOF算法的Matlab版本实现,可直接粘贴复制,并将代码稍作修改即可运行。function [outputArg1,outputArg2] = LOF(inputArg1,inputArg2)x=load ('Normalization_wbc.txt');%装载要检测的数据集Label=load('Label_w原创 2021-01-07 11:51:12 · 7739 阅读 · 65 评论 -
机器学习第16章(强化学习)
强化学习(reinforcement learning)16.1 任务与奖赏策略的优劣取决于长期执行这一策略后所得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。16.2 K-摇臂赌博机仅探索法能很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。sof...原创 2020-10-03 12:52:22 · 227 阅读 · 1 评论 -
机器学习第15章(规则学习)
规则学习15.1 基本概念rule通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念。规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。15.2 序贯覆盖15.3 剪枝优化15.4 一阶规则学习15.5 归纳逻辑程序设计...原创 2020-10-03 12:19:58 · 232 阅读 · 0 评论 -
机器学习第14章(概率图模型)
概率图模型14.1 隐马尔科夫模型机器学习最重要的任务:根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和预测。probabilistic model概率模型将学习任务归结于计算变量的概率分布,在概率模型中,利用已知变量推测未知变量的分布称为“推断(inference)”,其核心是如何基于可观测变量推测出未知变量的条件分布。probabilistic graphi...原创 2020-10-02 20:47:57 · 292 阅读 · 0 评论 -
机器学习第13章(半监督学习)
13.1 未标记样本如果有标记样本的个数太少,则由于训练不足,学得模型的泛化性能往往不见。active learning主动学习,其目标是使用尽量少的query查询来获得较好的性能。未标记样本虽然没有直接包含标记信息,但其来源也是和其他有标记样本一样,来自于独立同分布的采样。13.2 生成式方法Generative methods是直接基于生成式模型的方法,此类方法假设所有数据都是由一个潜在的模型生成的。13.3 半监督SVMSemi-Supervised Support Vec原创 2020-10-02 13:14:52 · 418 阅读 · 0 评论 -
机器学习第12章(计算学习理论)
计算学习理论(Computational learning theory)12.1 计算学习基础知识定义:通过计算来学习的理论。目的:是分析学习任务的困难本质,为学习算法提供理论保障,并根据分析结果指导算法设计。12.2 PCA学习Probably Approximately Correct 学习理论,概率近似正确。12.3 有限假设空间可分情形意味着目标概念c属于假设空间H,即。12.4 VC维现实学习任务所面临的通常是无限假设空间,欲对...原创 2020-10-02 12:22:48 · 261 阅读 · 0 评论 -
机器学习第11章(特征选择与稀疏学习)
11.1 子集搜索与评价11.2 过滤式选择过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。看起来像是先对特征进行过滤,再用过滤后的特征来训练模型。Relief(Relevant features) 算法11.3 包裹式选择包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。 包裹式特征选择的目的就是为给定学习器选择最有利于其性能,量身定做的特征子集。LVW(Las Vegas Wrapper)算法11.4 嵌入式选...原创 2020-09-29 12:46:52 · 273 阅读 · 0 评论 -
机器学习第10章(降维与度量学习)
降维与度量学习10.1 k近邻度量学习工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。在分类任务中多使用投票法,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中多使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果。给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率,即:...原创 2020-09-28 16:12:54 · 266 阅读 · 0 评论 -
机器学习第8章(集成学习)
集成学习(ensemble learning)8.1 个体与集成ensemble learning 通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)。集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。集成中只包含同种类型的个体学习器,这样的集成是“同质的(homogen...原创 2020-09-27 11:01:09 · 703 阅读 · 0 评论 -
机器学习第7章(贝叶斯分类器)
贝叶斯分类器(Bayes classifier)7.1 贝叶斯决策论Bayesian decision theory是概率框架下实施决策的基本方法。设有N种可能的标记,即7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法...原创 2020-09-26 14:31:58 · 188 阅读 · 0 评论 -
机器学习第6章(支持向量机)
支持向量机(support vector machine)6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法原创 2020-09-26 11:38:05 · 740 阅读 · 0 评论 -
机器学习第5章(神经网络)
神经网络(neural network)5.1 神经元模型The definition of neural network:神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络最基本的组成是neuron(神经元)模型,其最初是模拟的生物神经元。当其连接的其他神经元向其传递的化学物质达到一个阈值的时候,它会激活并兴奋,向其他连接的神经元发送...原创 2020-09-25 12:57:51 · 608 阅读 · 0 评论 -
机器学习第4章(决策树)
决策树(decision tree)4.1 决策树的基本流程决策树是基于树结构进行决策的,人脑亦是如此。一般的,一颗决策树包含一个根结点,若干个内部结点和若干个叶子结点,叶子结点对应于决策结果,其他每个结点对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根节点包含所有样本集合。从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的最终目的是产生一颗泛化能力强,即处理未预见示...原创 2020-09-25 10:31:32 · 273 阅读 · 0 评论 -
机器学习第3章(线性模型)
假设,d表示x的维度(属性),表示x在第i个属性上的值。线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即: 公式(1)向量形式为: ...原创 2020-09-24 15:05:04 · 285 阅读 · 0 评论 -
机器学习第一章(引言)
“假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则意味着关于T和P,该程序对E进行了学习”机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生“模型”,依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系: 图1.机器学习与数据挖掘的关系...原创 2020-09-20 11:31:20 · 604 阅读 · 0 评论 -
机器学习概述
一、人工智能1.人工智能的定义广泛接受的定义:“人工智能是关于知识的学科-怎样表示知识以及怎样获得知识并使用知识的科学”(尼克逊教授)or“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作”(麻省理工温斯顿教授)。总而言之:人工智能是研究人工智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作。即研究如何应用计算机的软硬件来模拟人类的某些智能行为的基本理论、方法与技术。2.人工智能的发展历史人工智能的发展阶段总体可分为3个时期:第一阶段人原创 2020-09-08 02:19:26 · 175 阅读 · 0 评论