机器学习
文章平均质量分 82
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
Keras fit_generator中的max_queue_size, workers, use_multiprocessing设置
Keras Model.fit_generator中这三个参数的说明max_queue_size: maximum size of the internal training queue which is used to "precache" samples from the generator 预缓存的最大队列数量workers: number of threads generating batches in parallel. Batches are compute...转载 2021-09-06 09:41:41 · 1083 阅读 · 0 评论 -
回归模型常见的损失函数
注意:如果图片不显示,请建议科学上网或者使用VPN。机器学习中的所有算法都依赖于最小化或最大化函数,我们将其称为“目标函数”。最小化的函数组称为“损失函数”。损失函数是衡量预测模型在能够预测预期结果方面的表现有多好的指标。寻找最小值的最常用方法是“梯度下降”。想想这个函数的作用,如起伏的山脉和梯度下降就像滑下山到达最低点。没有一种损失函数适用于所有类型的数据。它取决于许多因素,包括异常值的存在,机器学习算法的选择,梯度下降的时间效率,易于找到衍生物和预测的置信度。损失函数可大致分为两类:分类和回归转载 2021-08-25 18:45:37 · 3063 阅读 · 1 评论 -
##haohaohao##概率图模型学习笔记:HMM、MEMM、CRF
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。概率图模型学习笔记:HMM、MEMM、CRF一、Preface二、Prerequisite 2.1 概率图2.1.1 概览2.1.2 有向图 vs. 无向图2.1.3 马尔科夫假设&马尔科夫性2.2 判别式模型 vs. 生成式模型2.3 序列建模三、H.转载 2021-01-21 10:40:57 · 500 阅读 · 0 评论 -
关于batch normalization和layer normalization的理解
目录一、batch normalization和layer normalization的动机二、BN和LN的框架原理2.1BN和LN的具体操作原理2.2BN和LN的优点和不足2.3BN和LN的不同2.4BN和LN的实例代码展示三、Bert、Transformer中为何使用的是LN而很少使用BN3.1第一个解释3.2第二个解释 在深度学习中经常看到batch normalization的使用,在Bert模型里面经常看到layer normalization...转载 2020-10-28 09:43:04 · 11107 阅读 · 2 评论 -
机器阅读理解(MRC)和问答(QA)在信息抽取中的应用
一 机器阅读理解(MRC)、问答系统(QA)与信息抽取最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中,有很多模型使用到了机器阅读理解(MRC)和问答系统(QA)中思想和方法,如HBT、ETL-span、Multi-turn QA和BERT_MRC等,MRC和QA中的思想和方法的使用,让这些模型相比于传统方法有很大提升。在实体关系抽取任务中,最新的一些模型,如HBT和ETL-span,用到了MRC中经常使用的指针网络方法,通过多层标注序列解决实体重叠问题;Multi-turn QA则使用转载 2020-09-11 14:24:51 · 5444 阅读 · 0 评论 -
###好好好####深度学习---多标签分类问题
keras multi-label classification 多标签分类 问题:一个数据又多个标签,一个样本数据多个类别中的某几类;比如一个病人的数据有多个疾病,一个文本有多种题材,所以标签就是: [1,0,0,0,1,0,1] 这种高维稀疏类型,如何计算分类准确率?分类问题:二分类多分类多标签Keras metrics (性能度量)介绍的比较好的一个博客:https://machinelearningmastery.com/custom-metrics-de..转载 2020-08-04 11:55:26 · 5256 阅读 · 1 评论 -
【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch
半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA、ReMixMatch,再到 2020 年的 FixMatch。目录Consistency Regularization Entropy Minimization 结合 Consistency Regularization 和 Entropy Minimization FixMatch: Simplifying SSL with C.转载 2020-07-10 11:40:18 · 2391 阅读 · 0 评论 -
###haohaohao######主动学习用于标注优化迭代
我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较少的训练样本来获得性能较好的分类器呢?主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精转载 2020-07-07 11:11:05 · 566 阅读 · 0 评论 -
###好好好#####迁移学习(Transfer)
迁移学习(Transfer),面试看这些就够了!(附代码)1. 什么是迁移学习迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学转载 2020-06-24 15:13:56 · 376 阅读 · 0 评论 -
###好好好好#####模型蒸馏(Distil)及mnist实践
结论:蒸馏是个好方法。模型压缩/蒸馏在论文《Model Compression》及《Distilling the Knowledge in a Neural Network》提及,下面介绍后者及使用keras测试mnist数据集。蒸馏:使用小模型模拟大模型的泛性。通常,我们训练mnist时,target是分类标签,在蒸馏模型时,使用的是教师模型的输出概率分布作为“soft target”。也即损失为学生网络与教师网络输出的交叉熵(这里采用DistilBert论文中的策略,此论文不同)。当训练转载 2020-05-28 11:02:18 · 418 阅读 · 0 评论 -
###好好好########学习率和batchsize如何影响模型的性能?
1 为什么说学习率和batchsize目前深度学习模型多采用批量随机梯度下降算法进行优化,随机梯度下降算法的原理如下,n是批量大小(batchsize),η是学习率(learning rate)。可知道除了梯度本身,这两个因子直接决定了模型的权重更新,从优化本身来看它们是影响模型性能收敛最重要的参数。学习率直接影响模型的收敛状态,batchsize则影响模型的泛化性能,两者又是分子...转载 2020-04-30 15:44:14 · 902 阅读 · 0 评论 -
###好好好##### 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程|干货
零、什么是信用评分卡如今在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。信用评分卡多分为A,B,C卡三类:A卡(Application score card)申请评分卡 B卡(Behavior score card)行为评分卡 C卡(Collection score card)催收评分卡其评分机制的区别在于:使用的时间不...转载 2020-04-27 11:09:23 · 1131 阅读 · 0 评论 -
常见的几种normalization方法
文章目录 几种常见的normalization方法 基本知识 数学原理 Batch Normalization (BN) Layer Normalization (LN) pytorch中的LN Instance Normalization (IN) Group Nor...转载 2020-04-16 11:10:12 · 6070 阅读 · 0 评论 -
tensorflow2.0的一些高级函数用法
最近在学习tensorflow2.0的时候看到一些特别好用的高级函数,这里来记录一下它们的用法1.tf.gather()tf.gather(params,indices,validate_indices=None,name=None,axis=0)简单的理解一下,首先传入一个需要处理的张量,然后传入对他的选择操作,也就是一个索引张量。下面举个例子:考虑班级成绩册的例子,共有 4 个班...转载 2019-11-19 11:29:43 · 624 阅读 · 0 评论 -
#####好好好#####论文分享 | Learning Aligned-Spatial GCNs for Graph Classification
目前大部分GCN方法可以被归为两类:Spectral(基于频域)卷积和 Spatial(基于空域)卷积。前者主要基于 Spectral Graph Theory 将图信号变换到谱域与滤波器系数进行相乘再做逆变换[1][2],这种方法处理的图结构常常是固定大小的(节点个数固定)并且主要解决的是节点分类问题。然而现实中图数据的大小往往不固定,例如生物信息数据中的蛋白质结构、社交网络中的用户关系等,基于...转载 2019-11-14 19:14:52 · 315 阅读 · 0 评论 -
【Graph Embedding】DeepWalk算法原理,实现和应用
本文首先从整体介绍一下图表示学习,然后分别从原理,核心代码,应用三个部分介绍 DeepWalk 。图表示学习我们都知道在数据结构中,图是一种基础且常用的结构。现实世界中许多场景可以抽象为一种图结构,如社交网络,交通网络,电商网站中用户与物品的关系等。目前提到图算法一般指:1. 经典数据结构与算法层面的:最小生成树 (Prim,Kruskal,...) ,最短路 (Dijkstr...转载 2019-11-01 16:55:56 · 2756 阅读 · 0 评论 -
入门学习 | 什么是图卷积网络?行为识别领域新星
导读】图卷积网络(Graph Convolutional Network,GCN)是近年来逐渐流行的一种神经网络结构。不同于只能用于网格结构(grid-based)数据的传统网络模型 LSTM 和 CNN,图卷积网络能够处理具有广义拓扑图结构的数据,并深入发掘其特征和规律,例如 PageRank 引用网络、社交网络、通信网络、蛋白质分子结构等一系列具有空间拓扑图结构的不规则数据。相比于一般的拓扑图...转载 2019-11-01 14:30:17 · 729 阅读 · 0 评论 -
####好好好好#####关于贝叶斯,从贝叶斯方法谈到贝叶斯网络
在生信分析中经常会和贝叶斯打交道,比如贝叶斯分类器、贝叶斯网络、贝叶斯构建进化树等等。但是如果不清楚贝叶斯的原理,其实是很难对整个算法有深入了解的。这里小编整理了网络上的关于贝叶斯的最好的讲解,希望大家把它收藏起来,慢慢的啃。前言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James ...转载 2019-10-24 15:47:30 · 401 阅读 · 0 评论 -
机器学习笔记(三)k-means
今天来学习和复习一下K-均值聚类算法一概念:聚类是一种无监督的学习,它将相似的对象归到或是分成同一个簇(集合)当中,是自动的。聚类和分类的最大不同在于,分类的目标事先已知,而聚类不知道。聚类分析试图将相似的对象(实例)归为同一类,不相似的对象规程不同的类。相似这一概念取决于所选择的相似度计算方法。由于无监督算法不需要带标签数据,所以适用于许多难以获取带标签数据的应用,并且在有监督学习任原创 2015-05-12 16:16:45 · 741 阅读 · 0 评论 -
回归和梯度下降
前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错转载 2015-05-20 16:58:34 · 505 阅读 · 0 评论 -
模式识别、机器学习、数据挖掘当中的各种距离总结
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡原创 2015-05-17 22:51:43 · 1367 阅读 · 0 评论 -
Viterbi算法的学习
Viterbi算法 所谓的马尔科夫过程,就是该过程的当前状态仅由前一时刻的状态确定。用概率表达即为:。隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。在正常的马尔可夫模型中,状态对于观察者来说是原创 2015-05-21 16:24:33 · 1321 阅读 · 0 评论 -
K-means学习进阶以及它与EM的关系
K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚转载 2015-05-24 20:20:44 · 6663 阅读 · 1 评论 -
贝叶斯公式和朴素贝叶斯分类算法
在网上找了很多朴素贝叶斯分类算法的相关博客,首先感谢他们的劳动成果,我将自己认为有用的集合在一起,供以后复习和深入学习。首先,概念基础贝叶斯公式:定义:设A、B是两个事件,且P(A)>0,称P(B|A)=P(AB)/P(A)为在事件A发生的条件下事件B发生的条件概率。相关公式:乘法公式 P(XYZ)=P(Z|XY)P(原创 2015-06-17 20:44:42 · 5727 阅读 · 0 评论 -
数据挖掘学习笔记(二)C4.5
一:概念C4.5算法是机器学习和数据挖掘领域中的一整套用于处理分类问题的算法。是有监督学习类型的算法,即:给定一个数据集,所有实例都用一组属性、参数来描述,每个实例都仅属于一个类别,通过在给定数据集上学习得到一个从属性到类别的映射,进而可以利用这个映射来分类新的未知实例。二:算法过程首先,用根节点表示给定的数据集;然后,从根节点开始在每个节点上测试一个特定的属性,把节点数据原创 2015-05-11 10:04:07 · 786 阅读 · 0 评论 -
梯度下降法和随机梯度下降法的理解
1:其实梯度下降算法,在使用的时候无非是要考虑到2个方面,一个是方向,一个是步长,方向决定你是否走在了优化的道路上还是优化道路的负方向,步长是决定你要走多久才能到最优的地方。对于第一个问题很好解决,就是求梯度,梯度的负方向就是了。难的是求步长,如果步子太小,则需要很长的时间才能走到目的地,如果步子过大可能在目的地的周围来走震荡。所以重点在于如何选择步长。2:对于随机梯度中,步长原创 2015-06-18 21:23:27 · 944 阅读 · 0 评论 -
数据挖掘算法总结--核心思想,算法优缺点,应用领域,数据挖掘优缺点
数据挖掘十大算法总结--核心思想,算法优缺点,应用领域,数据挖掘优缺点•分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM•聚类算法:KMeans•统计学习:EM•关联分析:Apriori•链接挖掘:PageRank其中,EM算法虽可以用来聚类,但是由于EM算法进行迭代速度很慢,比kMeans性能差很多,并且原创 2015-06-02 22:39:39 · 1757 阅读 · 0 评论 -
机器学习之k-NN(学习笔记一)
原理思想:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法过程:1)计算已知类别数据集里面的点与当前点之间的距离;2)按照距离递增的次序进行排序;3)选择与当前点(待分类点)距离最小的k个点作为评判标准;4)确定前k个点中,各个点的数量,或是概率有多少;5)概率多大的,或数出现率最高的类别作为当前点的预测分类;原创 2015-05-06 22:06:34 · 1745 阅读 · 0 评论 -
语义分析语义关联挖掘
摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。转载 2015-06-03 19:54:33 · 14003 阅读 · 0 评论 -
数据挖掘之Adaboost学习笔记
所谓“众人拾柴火焰高”,“三个臭皮匠抵个诸葛亮”,继承学习的泛化能力一般明显好于单一的学习器。那么Adaboost算法就是基于这样的思想产生的。boosting方法的代表Adaboost是一个以单层决策树分类器为弱分类器基础,将他们组合在一起,从而组成一个高性能的可与svm相提并论的分类器。它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同原创 2015-06-04 20:17:18 · 794 阅读 · 0 评论 -
逻辑回归的深入理解总结
看了这么多回归的分析,找到了这篇讲的最好,推导很详细,也很到位,解决了一直以来对逻辑回归的一些疑问,现在分享在这里,供大家参考~Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,原创 2015-06-09 15:02:58 · 8433 阅读 · 1 评论 -
分类和回归的区别和联系
先简单的说下吧,下面给出实际例子类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。 拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x)。回归问题的要求是:给定一个新原创 2015-06-11 15:00:03 · 10784 阅读 · 0 评论 -
生成模型和判别模型
生成模型与判别模型监督学习的任务就是学习一个模型,应用这个模型,对给定的输入预测相应的输出。这个模型一般为决策函数:Y=f(X) 或 条件概率分布:P(Y|X)。监督学习的学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别叫生成模型和判别模型。 生成方法定义由数据学习联合概转载 2015-07-08 16:45:28 · 432 阅读 · 0 评论 -
数据挖掘学习笔记之CART树
一、决策树的类型 在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。分类回归树(CART,Classification And Regr原创 2015-06-11 16:18:50 · 1283 阅读 · 0 评论 -
逻辑回归及线性回归过拟合问题的解决方法
第一部分:Logistic Regression/*************(一)~(二)、Classification / Hypothesis Representation***********/假设随Tumor Size变化,预测病人的肿瘤是恶性(malignant)还是良性(benign)的情况。给出8个数据如下:转载 2015-05-25 15:38:10 · 2267 阅读 · 0 评论 -
机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值转载 2015-07-09 21:43:13 · 655 阅读 · 0 评论 -
随机森林和GBDT的几个核心问题
随机森林random forest的pro和con是什么?优势是accuracy高,但缺点是速度会降低,并且解释性interpretability会差很多,也会有overfitting的现象。为什么要最大化information gain?从root到leaf,使得各class distribution的Entropy不断减低。如果相反的话,就会增加预测的不确定性。原创 2015-07-03 09:28:58 · 5410 阅读 · 1 评论 -
模拟退火算法和遗传算法的学习
在网上找到了几个比较好的描述,总结在在这里,以后如果用的到,再来深入研究一下。优化算法入门系列文章目录: 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直原创 2015-07-04 21:31:55 · 10921 阅读 · 0 评论 -
从VC维和结构风险最小原理深入理解SVM
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。置信风险: 分类器对 未知样本进行分类,得到的误差。经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差结构风险:置信风险 + 经验风险结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率估计就是结构风险最小化的一个例子。当模型的条件概率分布、损失函数是原创 2015-06-14 20:08:07 · 6026 阅读 · 0 评论 -
逻辑回归及美团逻辑回归总结
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2015-07-27 16:38:45 · 3658 阅读 · 0 评论