机器学习~machine learning
文章平均质量分 84
theories, models related to machine learning
天狼啸月1990
舟遥遥以轻飏,风飘飘而吹衣。
展开
-
机器学习之数学基础(七)~过拟合(over-fitting)和欠拟合(under-fitting)
这时模型学嗨了,不肯停止,一直持续学习,学到了很多内容:有翅膀、嘴巴长、脖子形状像2、白色等特征的就是天鹅。结果:这时飞过来的黑天鹅被误判为不是天鹅,因为黑色从来没有出现过,这使得模型把颜色这种局部特征过度学习成了全局特征,从而产生了识别误差。结果:该模型将所有符合这两个特征的动物都预测为天鹅,比如鹦鹉、山鸡等,这就导致了误差的产生。模型学习到的天鹅特征太少了,导致区分标准过于粗糙,从而导致模型不能准确地识别出天鹅。模型对训练集以外的预测能力称为模型的泛化能力,追求这种泛化能力是机器学习的目标。原创 2024-06-25 19:47:21 · 1016 阅读 · 0 评论 -
机器学习之数学基础(六)~时间复杂度和空间复杂度
核心-》高性能的代码 = 相应速度快的代码。需要初级程序员了解算法,灵活地运用算法。-》发明设计一款算法:要去推导证明算法的可行性。数据结构是为算法服务的,而算法又需要作用在特定的数据结构上。-》谁的算法快,谁的算法更优!!如果两种算法实现的速度差不多,那我们还可以去评价算法所占用的空间。时间复杂度:执行当前算法所消耗的时间。--》快空间复杂度:执行当前算法所消耗的内存空间。--》省。原创 2024-06-03 20:09:29 · 1073 阅读 · 0 评论 -
机器学习之数学基础(五):贝叶斯定理 Bayes Theorem
因为是已发生事实事件Evidence,需要对所有样本进行测试,才能得到事实概率!,P(E)可以分为两部分,一部分是E和H的交集,另一部分是E和。事件A发生概率 * 事件A发生的条件下,B发生的概率。先写事件A发生概率,然后写乘以条件概率P(B|A),事件B发生概率 * 事件B发生的条件下,A发生的概率。先写事件B发生概率,然后写乘以条件概率P(A|B),随机事件:是指随机试验中可能发生或不发生的结果。P(E)一般是指后验概率,它的概率计算很复杂,从二概率公式推广到多概率贝叶斯公式。原创 2024-06-01 22:04:33 · 603 阅读 · 0 评论 -
NLP: LDA主题模型
(1) 一个函数:gamma函数(2) 四个分布:二项分布、多项分布、beta分布、Dirichlet分布(3) 一个概念和一个理念:共轭先验、贝叶斯框架(4) 两个模型:pLSA和LDA(5) 一个采样:Gibbs采样。原创 2022-08-31 18:10:20 · 12608 阅读 · 0 评论 -
机器学习之数学基础(四)~L1范数(Manhattan Distance)=Lasso Regression, L2范数(Euclidean distance)=Ridge Regression
【转载:深入理解L1、L2正则化 - MrLi的文章 - 知乎 https://zhuanlan.zhihu.com/p/29360425】正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。最基本的正则化方法是在原目标(代价)函数 中添加惩罚项,对复杂度高的模型进行“惩罚”。其数学表达形式为:式中X、y为训练样本和相应标签,w为权重系数向量;J()为目标函数,即为惩罚项,可理解为模型“规模”的某种度量;参数控制正则化强弱。不同的函数对.原创 2021-04-15 12:02:18 · 5119 阅读 · 1 评论 -
医学图像~脑分类数据fMRI, voxel
目录1. fMRI2. voxel, 体素医学图像相关的脑分类数据:fMRI, voxel1. fMRIfMRI, Funtional magnetic resonance imaging,功能性磁共振成像Wikipedia:Functional magnetic resonance imaging or functional MRI (fMRI) measures brain activity by detecting changes associated with blood..原创 2021-04-11 11:37:09 · 1690 阅读 · 0 评论 -
机器学习应用方向(三)~可解释机器学习Explainable ML/Explainable AI
1. 背景Problem:最新的机器学习或深度学习模型的有效性受限于机器向人类和用户解释它想法和行为的能力。 However, the effectiveness of these systems will be limited by the machine’s inability to explain its thoughts and actions to human users.Aim: 让用户user从why did you do that?到 I understand why you .原创 2021-04-08 10:03:24 · 445 阅读 · 0 评论 -
【转载】机器学习之数学基础(三)~什么是张量(Tensor)?
【转载:什么是张量 (tensor)? - 马同学的回答 - 知乎 https://www.zhihu.com/question/20695804/answer/447498656】这一系列文章源自此系列视频,需要科学上网此系列文章算是该视频的读书笔记,不过加入了个人对线性代数的理解,以及增加了很多动画帮助理解。根据维基百科的介绍,“张量”一词最初由威廉·罗恩·哈密顿在1846年引入。对,就是那个发明四元数的哈密顿: 威廉·罗恩·哈密顿1890年格雷戈里奥·里奇-库尔巴斯托罗的《绝对微分转载 2021-03-31 11:34:01 · 1427 阅读 · 0 评论 -
强化学习Reinforcement Learning
Pss′ = P[St+1 = s′|St = s]原创 2020-07-03 18:20:48 · 971 阅读 · 0 评论 -
机器学习高阶认识(一): 机器学习假设与迁移学习
传统机器学习的主要假设之一(例如上文所述的监督学习)是用于训练分类器的训练数据和用于评估分类器的测试数据属于相同的特征空间,并且遵循相同的概率分布。但是,由于人的可变性,在许多应用中经常违反这一假设[55]。reference: A. M. Azab, J. Toth, L. S. Mihaylova, and M. Arvaneh, “A review on transfer learning approaches in brain–computer interface,” inSigna.原创 2020-07-01 18:01:05 · 510 阅读 · 2 评论 -
机器学习之数学基础(二)~数组、向量、矩阵、向量空间、二维矩阵
<div id="content_views" class="markdown_views prism-atom-one-dark"> <!-- flowchart 箭头图标 勿删 --> <svg xmlns="http://www.w3.org/2000/svg" style="dis...原创 2020-04-15 22:48:13 · 5096 阅读 · 0 评论 -
机器学习应用方向(一)~英文姓名消歧(name disambiguation)
基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据,将其映射为一段64位或128位的二进制数字串,用以表征每条数据记录中的独特个体,将文本相似度比较转化为语义指纹相似度比较。是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。基于机器学习的方法较好地克服了规则方法的方法,在不同的专利发明人重名辨识环境中效果良好,但该方法在大规模专利数据中计算成本高。2. 重名辨识方法研究现状。原创 2020-04-15 22:24:45 · 1145 阅读 · 0 评论 -
机器学习应用方向(二)~概念漂移(concept drift)
1. 概念漂移(concept drift) 背景:概念漂移指的是数据流中的潜在数据分布随时间发生不可预测的变化,使原有的分类器分类不准确或决策系统无法正确决策,常见于推荐系统、金融领域、决策等 Concept drift refers to unforeseeable changes in the underlying data distribution of data stre...原创 2020-04-15 22:16:58 · 2758 阅读 · 0 评论 -
机器学习之数学基础(一)~maximum likelihood
一、转载博客转载在:https://www.douban.com/note/640290683/注0:《deep learning》的chapter 5有一部分讲maximum likelihood,那里讲地更清楚,建议直接去参考那里的内容。注1:今天走在路上,突然想明白了似然度是怎么回事,它就是用来度量模型和数据之间的相似度,所以叫它似然度。注2:原文链接:https://cod...原创 2020-04-15 22:15:43 · 448 阅读 · 0 评论