机器学习
文章平均质量分 91
linyuxi_loretta
这个作者很懒,什么都没留下…
展开
-
斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注
可能一开始不会去试任何什么特别高大上的深度学习的模型,我肯定是来训练一个比较简单的模型,比如说我就训练一个最简单的线性回归,主要是用来测试我的整个数据是怎么样子,用一个简单模型来测试数据的好坏。在真正的工业界的应用来说,需要去开发和维护大量的代码,大量的一些产品 一些组件,比如说包括了我怎么样把数据,实时的从产品那边抽取过来,然后做比较高性能的那些数据处理。或者是说你之前训练的模型,突然碰到一个节假日,整个用户的行为发生变化了,那么这时候你发现你的模型对于人的预测,是会有不一样的地方。原创 2023-04-05 22:24:51 · 319 阅读 · 1 评论 -
CNN (吴恩达 2021
这里只有这些超参需要你设定一次,或许是人工设定或者使用交叉检验across validation。原创 2022-11-18 04:34:24 · 641 阅读 · 1 评论 -
2021-2022 机器学习结语(李宏毅
如果有一个人告诉你train deep network不用通灵,都知道超参数、learning rate、network应该多深,你要怀疑他到底有没有实际train过model的经验,training的结果千奇百怪 往往无法预测。想更深入研究机器学习的各个主题:http://ai.ntu.edu.tw/mlss2021,最前瞻的主题进展状况。transformer 的input跟output的长度可以是不一样的,这学期的课程内容,跟过去的课程内容比较一下的话,会发现还是有蛮大不同的。输入:matrix。原创 2022-11-13 02:33:36 · 379 阅读 · 0 评论 -
meta learning(李宏毅
meta 元meta learning: learn to learn 学习如何学习大部分的时候deep learning就是在调hyperparameter、调hyperparameter真的很烦,决定什么network的架构啊、决定learning rate啊等等、实际上没有什么好方法来调这些hyperparameter、今天业界最常拿来解决调hyperparameter的方法呢就是买很多张gpu了、原创 2022-11-13 01:51:55 · 952 阅读 · 1 评论 -
2022人工智能数学基础1-2(许志钦
我们在前面定义的傅里叶变换里的频率,是一种input-output mapping的频率,如右边的例子,才是我们关注的频率。本质上就是把函数分解到三角函数上去研究,好处很多:cos导数-sin,sin导数cos,漂亮的周期、无穷、光滑、...或者是输入变化对输出变化的影响大小,输入发生变化,输出变化很慢,低频。6w个数据点,160w个参数的模型来拟合,参数数目>>训练样本数,传统的学习理论会觉得肯定过拟合,神经网络DNN 特点是参数特别多,能够拟合的好的函数中,只有一小部分可以泛化的好。原创 2022-11-06 03:51:53 · 534 阅读 · 0 评论 -
2021 神经网络压缩 (李宏毅
首先,为什么需要对神经网络模型进行压缩呢?我们在之前的课程中介绍过很多大型的深度学习模型,但当我们想要将这些大模型放在算力比较小的边缘设备或者其他IoT设备里面,就需要对大模型进行压缩。Lower latency:低时延 Privacy:私密性介绍5个网络压缩的方法,我们只考虑算法(软件)层面,不考虑硬件层面的解决方法。原创 2022-11-05 00:46:18 · 1448 阅读 · 4 评论 -
2021 Lifelong learning(李宏毅
Lifelong learning探讨的问题是,一个模型能否在很多个task上表现都很好。如此下去,模型能力就会越来越强。Life Long Learning 的難點出在什麼樣的地方:這個算是同一個任務 不同的 Domain機器先學個語音辨識、再學個翻譯、再学个影像辨识。。Lifelong learning沒有做到那個程度一般在 Life Long Learning 的文獻上,所謂的不同任務指的差不多就是我这里例子的等级,e.g.2 问答系统。原创 2022-11-05 00:46:49 · 502 阅读 · 0 评论 -
2021 增强式学习RL 李宏毅
最简单的但其实是不正确的版本,作业simple code的版本,通常搜集资料时,通常做多个episode, 比如说助教的simple code里跑了5个episode,才搜集到足够的资料。这不是一个好方法,因为学出来的network是一个短视近力的actor,因为每个行为都会影响互动接下来的发展,每个行为并不是独立的。而且存在Reward delay。“牺牲短期利益”,这个版本机器只会学到疯狂开火 只有这个行为是被鼓励的。原创 2022-11-04 14:44:43 · 925 阅读 · 0 评论 -
2021 Domain Adaptation(李宏毅
在前面介绍的模型中,一般我们都会假设训练资料和测试资料符合相同的分布。而。(域的转变)Domain Adaptation领域自适应学习,就是将在A domain上学到的东西应用到B domain上,这个技术 也可以看作是transfer learning的其中一个环节(在A任务上学到的技能可以用到B任务上)。Domain Shift,其实有很多种不同的类型:模型输入的资料的分布有变化(源域黑白,目标域彩色)输出的分布也可能有变化(源域均匀分布,目标域极端分布)原创 2022-11-02 23:01:43 · 473 阅读 · 0 评论 -
2021 Adversarial Attack(李宏毅
今天 Adversarial Attack這麼容易成功这个领域为对抗攻击与防御(Adversarial Attack and Defense),目前攻击是比较容易的而防御比较困难。在将神经网络模型应用于实际场景时,它仅仅拥有较高的正确率是不够的,还希望它能够应对来自外界的“恶意”,特别是在垃圾邮件分类、恶意软件检测、网络入侵检测等任务中,那些负类样本也会想尽办法来“欺骗”模型,使模型无法辨别出它为负类。因此我们希望我们的模型能够拥有应对这种攻击的能力。原创 2022-11-02 19:10:41 · 370 阅读 · 0 评论 -
2021 Explainable ML(李宏毅
1. correct answers ≠ intelligent e.g.神马汉斯2. 在很多真實的應用中,可解釋性的模型往往是必須的3. 可解释性ML的可提升ML model。今天在使用這些深度學習技術的時候、往往狀況是這個樣子、有某人说”這個就是你的機器學習的系統“,- 是啊 我就是把資料丟進去、、裡面就是有很多矩陣的相乘、就會跑出我的結果。如果結果不如預期的話,怎麼樣呢- 現在大家都知道就爆調一下參數對不對、、改個 Learning Rate、調一下 Network 的架構對不對,原创 2022-11-02 00:19:40 · 275 阅读 · 0 评论 -
2021 Anomaly Detection (李宏毅
異常偵測就是、我們要讓機器可以知道、我不知道這件事情那在這門課裡面呢、我們通常用上標、來表示一個完整的東西、用下标,來表示一個完整東西的其中一個部份,novelty这个词汇, 顯然是要找一個新的東西,比较正面的意思什麼叫做像訓練資料呢、这就是Anomaly Detection里需要探讨的问题。不同的方法,它就用不同的方式來定義similar,这里强调一下,這個所謂的異常、我們到底要檢測出什麼東西、其實是取決於你提供給機器什么样的训练资料,原创 2022-11-01 17:39:04 · 308 阅读 · 0 评论 -
Auto-encoder (李宏毅2022
那其实还有更多疯狂的想法,Representation 甚至不一定要是向量,举例来说,它也可以是一段文字。假设我们现在要做文字的 Auto-Encoder,概念和语音、影像的没有什么不同,但我们现在可以不用向量来当做 Embedding, 可以是一串文字。如果把 Embedding 变成一串文字有什么好处呢?原创 2022-11-01 01:11:57 · 322 阅读 · 0 评论 -
语音与影像上的自督导式学习模型、一些老版本的补充(李宏毅2022
如果要训练一个好的语音辨识的模型,没用self supervised 技术,直接训练一个end-to-end的model,通常要上万个小时的声音讯号(labeled),但是今天有了语音版的bert,很多人想挑战只用10min的资料训练语音辨识的模型,微调语音版的bert往往不必要, 往往固定住语音版的bert,只微调downstream model就可以得到不错的结果了。ASR语音辨识、唤醒词、原创 2022-10-31 16:15:02 · 762 阅读 · 0 评论 -
Data efficient ¶meter efficient tuning 助教 姜成翰
embedding layer就是把离散的token转换成连续的向量,这些向量就会被丢到一层又一层的transformer,每层的transformer就会抽出每一个token对应的embedding,到最后一层就会抽出最凶的embedding。self-supervised learning这是最近几年窜出来的一个名词,没有一个明确的定义,大概想法是:预测input的某一部分,给定其他的部分。与其让model 隐性的学到multi-task的能力,不如让model主动具备这样的能力。原创 2022-10-28 12:35:59 · 711 阅读 · 0 评论 -
自监督模型 Self-supervised learning(李宏毅2022
这个红色的怪物叫做ELMo 、最早的self-supervised learning model作业四的模型也是个transformer,只有0.1个millionCookie Monster等你来凑😼T5是Google做的,跟车子也没什么关系,在没有label情况下,自己想办法做supervised;将没有标注的资料分成两部分,一部分作为输入,一部分作为标注,进行训练;自监督学习是unsupervised learning中的一种方法;原创 2022-10-27 02:48:18 · 2010 阅读 · 0 评论 -
机器学习2017,Regression(李宏毅
对于左边的情况,上面讲过这种狭长的情形不过不用Adagrad的话是比较难处理的,两个方向上需要不同的学习率,同一组学习率会搞不定它。不考虑s的话,可以看出剩下的部分就是两个向量(△θ1,△θ2) 和 (u,v)的内积,那怎样让它最小,就是和向量 (u,v)方向相反的向量。式1-2只考虑了泰勒展开式的一次项,如果考虑到二次项,理论上learning rate就可以设大一点(比如牛顿法),在实际中不是特别好,不划算。有一系列的方法,都是Ada- 开头,老师觉得现在Adam方法最稳定,式子略复杂。原创 2022-10-25 20:53:48 · 657 阅读 · 0 评论 -
机器学习2017,导言(李宏毅
2021偏向深度学习,相对前沿一点的知识;2017偏向机器学习,经典的知识从今年开始(2017年),人工智慧这个词突然变得非常非常非常的热门,讲大家、政府通都在讲人工智慧这个词。但人工智慧是什么呢?人工智慧其实一点都不是新的词汇,人工智慧(AI)、Artificial Intelligence这个词汇,在1950年代就有了。那这个词意味着什么呢?这个词意味着一个人类长远以来的目标,希望机器可以跟人一样的聪明。在科幻小说里面,我们看要很多这样的幻想和期待。原创 2022-10-25 12:24:12 · 113 阅读 · 0 评论 -
生成式对抗网络(GAN)(李宏毅2022)
我们。原创 2022-10-24 10:26:51 · 1299 阅读 · 0 评论 -
Self-attention(李宏毅2022
此前,我们network的input都是一个向量,输出可能是一个数值或者一个类别。但是假设我们需要输入的是一排向量,并且向量的个数可能会发生改变,这个时候要怎么处理。将单词表示为向量的方法:One-hot Encoding。我们可以用很长的一个向量,来表示世界上所有的东西,但是这里有一个问题,它假设所有的词汇都是没有关系的,比如猫和狗,都是动物,但是这样没有办法把它分类在一起,没有语义的资讯。另一个方法是Word Embedding:我们给每个词汇一个向量,这个向量里有语义的信息。原创 2022-10-17 15:11:59 · 1008 阅读 · 0 评论 -
Transformer(李宏毅2022)
(作业五)变形金刚的英文就是Transformer,那Transformer也跟我们之后会,提到的BERT有非常强烈的关係,原创 2022-10-18 22:25:35 · 2304 阅读 · 2 评论 -
图像识别:CNN、Spatial Transformer Layer(李宏毅2022
convolutional layer就是,里面有一排filter,每个都是一个3 x 3 x channel 这么大的tensor,每个filter的作用就是抓取图片里的某个pattern,每个pattern需要在3 x 3 x channel那么小的范围内,才能被filter抓出来。pooling本身没有参数,没有要Learn的东西,所以他不是个layer,比较像是个activation function,他就是一个operator,他的行为都是固定好的,没有要根据data学任何东西。原创 2022-10-16 22:16:59 · 674 阅读 · 0 评论 -
深度学习理论(李宏毅
但是怎么定这个有未知数的function呢、那通常假设你没有什么想法的话、往往你需要先对你的资料做一些观察、想象一下,假设有一个function可以成功的分类宝可梦跟数码宝贝、那这个function它应该长什么样子所以,开始进行机器学习之前,也许我们先对资料进行一些观察。好在经过一番观察以后。我发现 他们虽然长得很像,但其实还是有显著差异:画风不同很多package呢可以帮你把一个图片里面的线呢把它画出来。细节不重要,总之扣一个library自动会产生这种边线的图。原创 2022-10-16 14:51:20 · 2837 阅读 · 0 评论 -
类神经网络训练不起来怎么办,局部最小值 与 鞍点, batch, momentum, Adaptive Learning Rate,调损失函数。 李宏毅2022
每个作业通关攻略 如果不满意kaggle上的结果: 先檢查你的training data loss、看看你的model在training data上面有沒有學起來 which one?判断方法:透過比較不同的模型、來得知說、你的model現在到底夠不夠大 e.g. residual network(2015)paper,測2個networks,一个20层、一个56层,橫軸指的是training的過程、那個時候大家對Deep Learning有各種奇怪的誤解,很多人看到這張圖都會說、這個代表overfi原创 2022-10-14 20:18:48 · 332 阅读 · 0 评论 -
分类问题:Generative model 、Logistic Regression、
Colab这是谷歌提供的免费远程使用Gpu的网站,jupyter也可以的,这个就是为了让你可以不用自己买gpu跑程式 Classification(选修)To Learn More - 分类神奇宝贝Pokemon_哔哩哔哩_bilibili中文有至少 8000 個 character,classification 第一個問題,就是怎麼把一隻寶可夢當作function 的 input,數值化。那我們要怎麼把一隻寶可夢用數字來表示呢?一隻寶可夢,其實它有很多的特性,這些特性是可以數值化的,比如說,它整體的強度原创 2022-10-12 17:38:44 · 251 阅读 · 0 评论 -
深度学习01 基本概念简介 李宏毅2022
2021 - (下) - 深度学习基本概念简介_哔哩哔哩_bilibilithis course focus on deep learning,函式是 类神经网路 supervised learningself- supervised learning, pre-train(模型先练基本功 downstream tasks下游任务这个可以理解为,训练了编码器,也可以叫特征提取器 GPT-3 > T5 > GPT-2 > BERT > ELMo GAN 生成对抗网络刚开始时,18年,错误率比正确率高最原创 2022-10-11 23:46:20 · 196 阅读 · 0 评论 -
吴恩达 深度学习1 2022, 浙大AI第一课
举个算法改进的例子,NN一个巨大的突破是,之前神经网络神经元的激活函数是Sigmoid函数,后来改成了ReLU函数。gradient=0,参数会变化的很慢,学习也会变的很慢)。然而,ReLU函数在x大于零的区域,其梯度始终为1,尽管在x小于零的区域梯度为0,但是在实际应用中采用ReLU函数确实要比Sigmoid函数快很多。神经网络在很多短期经济价值的创造,是基于Structured Data,e.g.广告系统,better profit recommendations,处理很多公司拥有的海量数据库,原创 2022-10-11 10:32:01 · 276 阅读 · 0 评论 -
吴恩达 机器学习2022 第一课
一共有三个部分:Supervised Machine Learning: Regression and Classification,Advanced Learning Algorithms,Unsupervised Learning, Recommenders, ReinforcementAGI即Artificial general intelligence的简写,人工通用智能。原创 2022-10-11 10:29:27 · 566 阅读 · 0 评论