机器学习
文章平均质量分 64
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
概率中的先验分布,后验分布,似然估计的通俗理解
这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。下面举例:隔壁老王要去10公里外的一个地方办事,他可以选择走路,骑自行车或者开车,并花费了一定时间到达目的地。在这个事件中,可以把交通方式(走路、骑车或开车)认为是原因,花费的时间认为是结果。若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。若老王一共用了两个小时的时间完成了10公里的距离,那么很有可能他是走路过去的。若老转载 2021-04-09 18:34:08 · 707 阅读 · 0 评论 -
AUC
AUC是衡量二分类模型优劣的一种评价指标,其他评价指标有精确度、准确率、召回率,而AUC比这三者更为常用。因为一般在分类模型中,预测结果都是以概率的形式表现,如果要计算准确率,通常都会手动设置一个阈值来将对应的概率转化成类别,这个阈值也就很大程度上影响了模型准确率的计算。AUC能很好描述模型整体性能的高低。从一定程度上讲,它可以描述预测结果中正例排在负例前面的概率。AUC(Area under the Curve of ROC)是ROC曲线下方的面积,是判断二分类预测模型优劣的标准。ROC(receiv原创 2020-07-15 23:46:01 · 1562 阅读 · 0 评论 -
《统计学习方法》代码全解析——第十三部分无监督学习概论
1.机器学习或统计学习一般包括监督学习、无监督学习、强化学习。无监督学习是指从无标注数据中学习模型的机器学习问题。无标注数据是自然得到的数据,模型表示数据的类别、转换或概率无监督学习的本质是学习数据中的统计规律或潜在结构,主要包括聚类、降维、概率估计。2.无监督学习可以用于对已有数据的分析,也可以用于对未来数据的预测。学习得到的模型有函数 ????=????(????) z=g(x) ,条件概率分布 ????(????|????) P(z|x) ,或条件概率分布 ????(????|????) P(x|原创 2020-05-25 19:58:28 · 346 阅读 · 0 评论 -
《统计学习方法》代码全解析——第十二部分监督学习方法总结
1 适用问题¶监督学习可以认为是学习一个模型,使它能对给定的输入预测相应的输出。监督学习包括分类、标注、回归。本篇主要考虑前两者的学习方法。分类问题是从实例的特征向量到类标记的预测问题;标注问题是从观测序列到标记序列(或状态序列)的预测问题。可以认为分类问题是标注问题的特殊情况。 分类问题中可能的预测结果是二类或多类;而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的。感知机、????k近邻法、朴素贝叶斯法、决策树是简单的分类方法,具有模型直观、方法简单、实现容易等特点;逻辑斯谛回原创 2020-05-25 19:36:44 · 324 阅读 · 0 评论 -
《统计学习方法》代码全解析——第十一部分条件随机场
1.概率无向图模型是由无向图表示的联合概率分布。无向图上的结点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔可夫性。因此,概率无向图模型也称为马尔可夫随机场。概率无向图模型或马尔可夫随机场的联合概率分布可以分解为无向图最大团上的正值函数的乘积的形式。2.条件随机场是给定输入随机变量 ???? X 条件下,输出随机变量 ???? Y 的条件概率分布模型, 其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是原创 2020-05-25 19:25:10 · 326 阅读 · 0 评论 -
《统计学习方法》代码全解析——第四部分朴素贝叶斯
1.朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 ????(????,????) P(X,Y) ,然后求得后验概率分布 ????(????|????) P(Y|X) 。具体来说,利用训练数据学习 ????(????|????) P(X|Y) 和 ????(????) P(Y) 的估计,得到联合概率分布:????(????,????)=????(????)????(????|????)概率估计方法可以是极大似然估计或贝叶斯估计。2.朴素贝叶斯法的基本假设是条件独立性原创 2020-05-25 18:45:00 · 361 阅读 · 0 评论 -
《统计学习方法》代码全解析——第三部分k近邻法
1. ???? 近邻法是基本且简单的分类与回归方法。???? k 近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的 ???? 个最近邻训练实例点,然后利用这 ???? 个训练实例点的类的多数来预测输入实例点的类。2. ???? 近邻模型对应于基于训练数据集对特征空间的一个划分。???? k 近邻法中,当训练集、距离度量、 ???? 值及分类决策规则确定后,其结果唯一确定。3. ???? 近邻法三要素:距离度量、 ???? 值的选择和分类决策规则。常用的距离度量是欧氏距离及更一原创 2020-05-25 18:01:44 · 472 阅读 · 0 评论 -
《统计学习方法》代码全解析——第二部分 感知机
1.感知机是根据输入实例的特征向量 ???? x 对其进行二类分类的线性分类模型:感知机模型对应于输入空间(特征空间)中的分离超平面 ????⋅????+????=02.感知机学习的策略是极小化损失函数:3.感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式。算法简单且易于实现。原始形式中,首先任意选取一个超平面,然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选取一个误分类点使其梯度下降。4.当训练数据集线性可分时,感知机学习算法是收敛的。感知机原创 2020-05-25 17:31:28 · 421 阅读 · 0 评论 -
《统计学习方法》代码全解析——第一部分统计学习方法概论
1.统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。2.统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。3.本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发, 假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。4.统计学习中,进行模型选择或转载 2020-05-25 16:42:18 · 564 阅读 · 0 评论 -
弱监督学习综述(Weak Supervision 2019)
近年来,机器学习(ML)的现实影响已经突飞猛进。在很大程度上,这是由于深度学习模型的出现,这使得从业者可以在benchmark集上获得优异的分数,而无需任何手工设计的特征(hand-engineered features)。鉴于TensorFlow和PyTorch等多种开源ML框架的可用性,以及大量可用的最先进模型,可以说高质量的ML模型现在几乎是商品化的资源。然而,有一个隐藏的问题:这些模型依赖于大量手工标记的训练数据(the reliance of these models on massive se.转载 2020-05-15 00:33:11 · 1233 阅读 · 0 评论 -
不可错过!斯坦福课程3D数据的机器学习方法(Machine Learning for 3D Data)第一部分
可以看出shapeNet数据集很大,种类也很多原创 2020-05-01 17:16:56 · 657 阅读 · 1 评论 -
入门到精通!珍藏资源!VAE变分自编码器
过去虽然没有细看,但印象里一直觉得变分自编码器(Variational Auto-Encoder,VAE)是个好东西。趁着最近看概率图模型的三分钟热度,我决定也争取把 VAE 搞懂。 于是乎照样翻了网上很多资料,无一例外发现都很含糊,主要的感觉是公式写了一大通,还是迷迷糊糊的,最后好不容易觉得看懂了,再去看看实现的代码,又感觉实现代码跟理论完全不是一回事啊。 终于,东拼西凑再加上我这段...原创 2020-04-22 11:17:38 · 282 阅读 · 0 评论 -
黑科技绝对不能错过!随机采样方法MCMC
摘自https://www.cnblogs.com/chaofn/p/9425218.html背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁...原创 2020-04-21 18:22:10 · 379 阅读 · 0 评论 -
PRML第十章 Approximate Inference(近似推断,变分推断,KL散度,平均场, Mean Field )
https://blog.csdn.net/nietzsche2015/article/details/43450853转载 2020-04-21 16:36:54 · 577 阅读 · 0 评论 -
机器学习-1-.py文件的导入问题
就算是把.py文件放在了和python程序在一个文件夹,import时也会出现错误。这时候可以import sysprint sys.path打印出来的就是现在的import的查询目录,也就是说现在需要导入的.py文件不在查询目录中,这时候就看可以sys.path.append("C:\Users\PC\Desktop\ml")括号里是需要导入的文件目录,然后再import就可原创 2017-09-20 19:54:14 · 308 阅读 · 0 评论 -
机器学习-python的工作目录
输入import oshomedir = os.getcwd()print(homedir)//然后就会输出工作目录,把要处理的文件放在里面就好原创 2017-09-20 20:24:29 · 378 阅读 · 0 评论 -
开发者入门必读:最值得看的十大机器学习公开课
[转]http://www.leiphone.com/news/201701/0milWCyQO4ZbBvuW.html导语:入门机器学习不知道从哪着手?看这篇就够了。在当下的机器学习热潮,人才匮乏十分显著。截至目前,国内开设人工智能(AI)专业的高校不多,相当多的开发者是跨界入门,需要自学大量知识并摸索。因而优质的学习资源至关重要。因此,雷锋网搜集了全世界范围内最受欢迎的机器...转载 2019-04-06 13:39:07 · 534 阅读 · 2 评论 -
CV学习-1 k-means代码解读
感觉很多东西学了就忘,学的数量多但不一定能记住,所以重新回归博客开始写笔记,水平很差,仅限自己学习。这在jupyter notebook中写的代码的笔记。首先是几行头部代码的解释%matplotlib inline #这行代码的意思是在notebook内部嵌入matplotlib的图像,而不是在新的页面弹出一个窗口显示import numpy as np #导入numpy库,并...原创 2019-04-07 11:46:27 · 365 阅读 · 0 评论 -
sklearn中的XGBClassifier函数学习
# 常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程 nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。 scale_pos_weight...原创 2019-04-12 18:00:38 · 2151 阅读 · 0 评论 -
matplotlib中的plot_importance画图大小控制
今天用plot_importance画图的时候,发现用matplotlib的正常设置图大小的方法无效,找遍网上也很少有办法,最后看别人代码终于找到解决办法。fig,ax = plt.subplots(figsize=(15,15))plot_importance(model, height=0.5, ax=ax, ...原创 2019-04-12 18:10:13 · 8723 阅读 · 5 评论 -
计算机视觉目标检测算法总结2——基于深度学习
Two-Stage深度学习目标检测:准确度高、速度相对one-stage要慢 CNN网络设计规则 从简到繁再到简的卷积神经网络 多尺度特征融合的网络 更轻量级的CNN网络 RPN网络 区域推荐(anchor机制) ROI Pooling 输入:特征图、rois(1*5*1*1)以及ROI参数 输出:固定尺寸的feature map 分类和回归 On...原创 2019-06-12 17:53:19 · 583 阅读 · 0 评论 -
计算机视觉目标检测算法总结4——其他SSD系列算法
RSSD算法 rainbow concatenation方式(pooling加deconvolution)融合不同层的特征,在增加不同层之间feature map关系的同时也增加了不同层的feature map个数。 这种融合方式不仅解决了传统SSD算法存在的重复框问题,同时一定程度上解决了small objection的问题, FSSD算法 借鉴了FPN的思想,重构了一组pyram...原创 2019-06-13 22:32:06 · 808 阅读 · 0 评论 -
计算机视觉目标检测算法总结1——简介
目标检测是在图片中对可变数量的目标进行查找和分类 目标种类和数量问题 目标尺度问题 外在环境干扰问题 目标检测方法(深度学习) 基于一体化卷积网络的检测:Overfeat->YOLO->SSD->Retina-Net 基于Object Proposal的检测:RCNN->SPPNet->Fast RCNN->Faster RCNN->...原创 2019-06-11 18:25:16 · 1264 阅读 · 0 评论 -
计算机视觉目标检测算法总结5——RCNN系列算法
Faster RCNN介绍 Boss B.Girshick在2016年提出 目标检测任务 给定图片中精确定位物体位置,预测物体类别 尺度变化、视角变化、姿态变化、场景不确定、多个类别 RCNN->SPPNet->Fast-RCNN->Faster-RCNN升级 RCNN 过程 训练分类网络(AlexNet) 模型做fine-tunin...原创 2019-06-17 22:51:20 · 836 阅读 · 0 评论 -
了解数据挖掘
1763 年,Thomas Bayes 的论文在他死后发表,他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础。1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回归确定了天体(彗星和行星)绕行太阳的轨道。回归分析的目标是估计变量之原创 2016-10-27 09:13:26 · 1068 阅读 · 0 评论