- 博客(63)
- 收藏
- 关注
原创 斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注
可能一开始不会去试任何什么特别高大上的深度学习的模型,我肯定是来训练一个比较简单的模型,比如说我就训练一个最简单的线性回归,主要是用来测试我的整个数据是怎么样子,用一个简单模型来测试数据的好坏。在真正的工业界的应用来说,需要去开发和维护大量的代码,大量的一些产品 一些组件,比如说包括了我怎么样把数据,实时的从产品那边抽取过来,然后做比较高性能的那些数据处理。或者是说你之前训练的模型,突然碰到一个节假日,整个用户的行为发生变化了,那么这时候你发现你的模型对于人的预测,是会有不一样的地方。
2023-04-05 22:24:51 420 1
原创 李宏毅2023春季机器学习笔记 - 01生成AI(ChatGPT)
预设的知识储备要求:数学(微积分、线性代数、机率);编程能力(读写python)这门课专注在 深度学习领域deep learning,事实上深度学习在今天的整个机器学习(ML)的领域使用非常广泛,可以说是最受重视的一项ML技术。这门课可以作为你的机器学习的第一堂课,修完后可以更深入的把这个技术,用在你未来感兴趣的领域。课程录像和作业:如果 只凭google colab可以取得及格的成绩,基本上如果有越多的运算资源,越有机会在这门课取得比较好的成绩。
2023-03-13 15:48:51 5681
原创 pytorch入门教程(小土堆
pytorch入门教程、一些基础函数的概念(参考代码),主要是带着读了一遍pytorch官方文档、另外推荐一个网站 www.paperswithcode.com,感觉很厉害的样子。
2022-11-16 21:36:41 868
原创 刘二大人CNN
0、前一部分 卷积层 和 subsampling 叫做Feature Extraction特征提取器,后一部分叫做classification1、每一个卷积核它的通道数量要求和输入通道是一样的。这种卷积核的总数有多少个和你输出通道的数量是一样的。2、卷积(convolution)后,C(Channels)变,W(width)和H(Height)可变可不变,取决于是否padding。subsampling(或pooling)后,C不变,W和H变。3、卷积层:保留图像的空间信息。
2022-11-15 17:43:40 949
原创 2021-2022 机器学习结语(李宏毅
如果有一个人告诉你train deep network不用通灵,都知道超参数、learning rate、network应该多深,你要怀疑他到底有没有实际train过model的经验,training的结果千奇百怪 往往无法预测。想更深入研究机器学习的各个主题:http://ai.ntu.edu.tw/mlss2021,最前瞻的主题进展状况。transformer 的input跟output的长度可以是不一样的,这学期的课程内容,跟过去的课程内容比较一下的话,会发现还是有蛮大不同的。输入:matrix。
2022-11-13 02:33:36 421
原创 meta learning(李宏毅
meta 元meta learning: learn to learn 学习如何学习大部分的时候deep learning就是在调hyperparameter、调hyperparameter真的很烦,决定什么network的架构啊、决定learning rate啊等等、实际上没有什么好方法来调这些hyperparameter、今天业界最常拿来解决调hyperparameter的方法呢就是买很多张gpu了、
2022-11-13 01:51:55 1095 1
原创 2022人工智能数学基础2(交大许老师
参数量>>数据量 过参数化限制条件没法完全限制住参数,多解神经网络为什么好,应用的数据 图片、语言、文字这些数据很有价值 训练过程似乎遵循某些基本原则,叫“隐式正则化 ” 隐式偏向(人的意识里) 为什么偏向先学习低频?ReLU关于ξ^2衰减函数积分后更光滑;光滑则衰减更快;频率空间和时域空间无法同时精确光滑性就是看能否求导、是否连续 激活函数 在傅里叶空间 单调衰减、和神经网络在傅里叶空间具有某种单调性 是一致的。 二次函数*高斯函数 震荡越厉害,高频越多 加速高频的收敛 以两层神经网络为例:
2022-11-08 00:53:49 521
原创 2022人工智能数学基础1-2(许志钦
我们在前面定义的傅里叶变换里的频率,是一种input-output mapping的频率,如右边的例子,才是我们关注的频率。本质上就是把函数分解到三角函数上去研究,好处很多:cos导数-sin,sin导数cos,漂亮的周期、无穷、光滑、...或者是输入变化对输出变化的影响大小,输入发生变化,输出变化很慢,低频。6w个数据点,160w个参数的模型来拟合,参数数目>>训练样本数,传统的学习理论会觉得肯定过拟合,神经网络DNN 特点是参数特别多,能够拟合的好的函数中,只有一小部分可以泛化的好。
2022-11-06 03:51:53 616
原创 2021 Lifelong learning(李宏毅
Lifelong learning探讨的问题是,一个模型能否在很多个task上表现都很好。如此下去,模型能力就会越来越强。Life Long Learning 的難點出在什麼樣的地方:這個算是同一個任務 不同的 Domain機器先學個語音辨識、再學個翻譯、再学个影像辨识。。Lifelong learning沒有做到那個程度一般在 Life Long Learning 的文獻上,所謂的不同任務指的差不多就是我这里例子的等级,e.g.2 问答系统。
2022-11-05 00:46:49 559
原创 2021 神经网络压缩 (李宏毅
首先,为什么需要对神经网络模型进行压缩呢?我们在之前的课程中介绍过很多大型的深度学习模型,但当我们想要将这些大模型放在算力比较小的边缘设备或者其他IoT设备里面,就需要对大模型进行压缩。Lower latency:低时延 Privacy:私密性介绍5个网络压缩的方法,我们只考虑算法(软件)层面,不考虑硬件层面的解决方法。
2022-11-05 00:46:18 1574 4
原创 2021 增强式学习RL 李宏毅
最简单的但其实是不正确的版本,作业simple code的版本,通常搜集资料时,通常做多个episode, 比如说助教的simple code里跑了5个episode,才搜集到足够的资料。这不是一个好方法,因为学出来的network是一个短视近力的actor,因为每个行为都会影响互动接下来的发展,每个行为并不是独立的。而且存在Reward delay。“牺牲短期利益”,这个版本机器只会学到疯狂开火 只有这个行为是被鼓励的。
2022-11-04 14:44:43 980
原创 2021 Domain Adaptation(李宏毅
在前面介绍的模型中,一般我们都会假设训练资料和测试资料符合相同的分布。而。(域的转变)Domain Adaptation领域自适应学习,就是将在A domain上学到的东西应用到B domain上,这个技术 也可以看作是transfer learning的其中一个环节(在A任务上学到的技能可以用到B任务上)。Domain Shift,其实有很多种不同的类型:模型输入的资料的分布有变化(源域黑白,目标域彩色)输出的分布也可能有变化(源域均匀分布,目标域极端分布)
2022-11-02 23:01:43 548
原创 2021 Adversarial Attack(李宏毅
今天 Adversarial Attack這麼容易成功这个领域为对抗攻击与防御(Adversarial Attack and Defense),目前攻击是比较容易的而防御比较困难。在将神经网络模型应用于实际场景时,它仅仅拥有较高的正确率是不够的,还希望它能够应对来自外界的“恶意”,特别是在垃圾邮件分类、恶意软件检测、网络入侵检测等任务中,那些负类样本也会想尽办法来“欺骗”模型,使模型无法辨别出它为负类。因此我们希望我们的模型能够拥有应对这种攻击的能力。
2022-11-02 19:10:41 433
原创 2021 Explainable ML(李宏毅
1. correct answers ≠ intelligent e.g.神马汉斯2. 在很多真實的應用中,可解釋性的模型往往是必須的3. 可解释性ML的可提升ML model。今天在使用這些深度學習技術的時候、往往狀況是這個樣子、有某人说”這個就是你的機器學習的系統“,- 是啊 我就是把資料丟進去、、裡面就是有很多矩陣的相乘、就會跑出我的結果。如果結果不如預期的話,怎麼樣呢- 現在大家都知道就爆調一下參數對不對、、改個 Learning Rate、調一下 Network 的架構對不對,
2022-11-02 00:19:40 302
原创 2021 Anomaly Detection (李宏毅
異常偵測就是、我們要讓機器可以知道、我不知道這件事情那在這門課裡面呢、我們通常用上標、來表示一個完整的東西、用下标,來表示一個完整東西的其中一個部份,novelty这个词汇, 顯然是要找一個新的東西,比较正面的意思什麼叫做像訓練資料呢、这就是Anomaly Detection里需要探讨的问题。不同的方法,它就用不同的方式來定義similar,这里强调一下,這個所謂的異常、我們到底要檢測出什麼東西、其實是取決於你提供給機器什么样的训练资料,
2022-11-01 17:39:04 355
原创 Auto-encoder (李宏毅2022
那其实还有更多疯狂的想法,Representation 甚至不一定要是向量,举例来说,它也可以是一段文字。假设我们现在要做文字的 Auto-Encoder,概念和语音、影像的没有什么不同,但我们现在可以不用向量来当做 Embedding, 可以是一串文字。如果把 Embedding 变成一串文字有什么好处呢?
2022-11-01 01:11:57 366
原创 语音与影像上的自督导式学习模型、一些老版本的补充(李宏毅2022
如果要训练一个好的语音辨识的模型,没用self supervised 技术,直接训练一个end-to-end的model,通常要上万个小时的声音讯号(labeled),但是今天有了语音版的bert,很多人想挑战只用10min的资料训练语音辨识的模型,微调语音版的bert往往不必要, 往往固定住语音版的bert,只微调downstream model就可以得到不错的结果了。ASR语音辨识、唤醒词、
2022-10-31 16:15:02 894
原创 Data efficient ¶meter efficient tuning 助教 姜成翰
embedding layer就是把离散的token转换成连续的向量,这些向量就会被丢到一层又一层的transformer,每层的transformer就会抽出每一个token对应的embedding,到最后一层就会抽出最凶的embedding。self-supervised learning这是最近几年窜出来的一个名词,没有一个明确的定义,大概想法是:预测input的某一部分,给定其他的部分。与其让model 隐性的学到multi-task的能力,不如让model主动具备这样的能力。
2022-10-28 12:35:59 759
原创 自监督模型 Self-supervised learning(李宏毅2022
这个红色的怪物叫做ELMo 、最早的self-supervised learning model作业四的模型也是个transformer,只有0.1个millionCookie Monster等你来凑😼T5是Google做的,跟车子也没什么关系,在没有label情况下,自己想办法做supervised;将没有标注的资料分成两部分,一部分作为输入,一部分作为标注,进行训练;自监督学习是unsupervised learning中的一种方法;
2022-10-27 02:48:18 2159
原创 机器学习2017,Regression(李宏毅
对于左边的情况,上面讲过这种狭长的情形不过不用Adagrad的话是比较难处理的,两个方向上需要不同的学习率,同一组学习率会搞不定它。不考虑s的话,可以看出剩下的部分就是两个向量(△θ1,△θ2) 和 (u,v)的内积,那怎样让它最小,就是和向量 (u,v)方向相反的向量。式1-2只考虑了泰勒展开式的一次项,如果考虑到二次项,理论上learning rate就可以设大一点(比如牛顿法),在实际中不是特别好,不划算。有一系列的方法,都是Ada- 开头,老师觉得现在Adam方法最稳定,式子略复杂。
2022-10-25 20:53:48 700
原创 机器学习2017,导言(李宏毅
2021偏向深度学习,相对前沿一点的知识;2017偏向机器学习,经典的知识从今年开始(2017年),人工智慧这个词突然变得非常非常非常的热门,讲大家、政府通都在讲人工智慧这个词。但人工智慧是什么呢?人工智慧其实一点都不是新的词汇,人工智慧(AI)、Artificial Intelligence这个词汇,在1950年代就有了。那这个词意味着什么呢?这个词意味着一个人类长远以来的目标,希望机器可以跟人一样的聪明。在科幻小说里面,我们看要很多这样的幻想和期待。
2022-10-25 12:24:12 160
原创 Transformer(李宏毅2022)
(作业五)变形金刚的英文就是Transformer,那Transformer也跟我们之后会,提到的BERT有非常强烈的关係,
2022-10-18 22:25:35 2508 2
原创 Self-attention(李宏毅2022
此前,我们network的input都是一个向量,输出可能是一个数值或者一个类别。但是假设我们需要输入的是一排向量,并且向量的个数可能会发生改变,这个时候要怎么处理。将单词表示为向量的方法:One-hot Encoding。我们可以用很长的一个向量,来表示世界上所有的东西,但是这里有一个问题,它假设所有的词汇都是没有关系的,比如猫和狗,都是动物,但是这样没有办法把它分类在一起,没有语义的资讯。另一个方法是Word Embedding:我们给每个词汇一个向量,这个向量里有语义的信息。
2022-10-17 15:11:59 1100
原创 图像识别:CNN、Spatial Transformer Layer(李宏毅2022
convolutional layer就是,里面有一排filter,每个都是一个3 x 3 x channel 这么大的tensor,每个filter的作用就是抓取图片里的某个pattern,每个pattern需要在3 x 3 x channel那么小的范围内,才能被filter抓出来。pooling本身没有参数,没有要Learn的东西,所以他不是个layer,比较像是个activation function,他就是一个operator,他的行为都是固定好的,没有要根据data学任何东西。
2022-10-16 22:16:59 760
原创 深度学习理论(李宏毅
但是怎么定这个有未知数的function呢、那通常假设你没有什么想法的话、往往你需要先对你的资料做一些观察、想象一下,假设有一个function可以成功的分类宝可梦跟数码宝贝、那这个function它应该长什么样子所以,开始进行机器学习之前,也许我们先对资料进行一些观察。好在经过一番观察以后。我发现 他们虽然长得很像,但其实还是有显著差异:画风不同很多package呢可以帮你把一个图片里面的线呢把它画出来。细节不重要,总之扣一个library自动会产生这种边线的图。
2022-10-16 14:51:20 2946
原创 类神经网络训练不起来怎么办,局部最小值 与 鞍点, batch, momentum, Adaptive Learning Rate,调损失函数。 李宏毅2022
每个作业通关攻略 如果不满意kaggle上的结果: 先檢查你的training data loss、看看你的model在training data上面有沒有學起來 which one?判断方法:透過比較不同的模型、來得知說、你的model現在到底夠不夠大 e.g. residual network(2015)paper,測2個networks,一个20层、一个56层,橫軸指的是training的過程、那個時候大家對Deep Learning有各種奇怪的誤解,很多人看到這張圖都會說、這個代表overfi
2022-10-14 20:18:48 412
原创 分类问题:Generative model 、Logistic Regression、
Colab这是谷歌提供的免费远程使用Gpu的网站,jupyter也可以的,这个就是为了让你可以不用自己买gpu跑程式 Classification(选修)To Learn More - 分类神奇宝贝Pokemon_哔哩哔哩_bilibili中文有至少 8000 個 character,classification 第一個問題,就是怎麼把一隻寶可夢當作function 的 input,數值化。那我們要怎麼把一隻寶可夢用數字來表示呢?一隻寶可夢,其實它有很多的特性,這些特性是可以數值化的,比如說,它整體的強度
2022-10-12 17:38:44 300
原创 深度学习01 基本概念简介 李宏毅2022
2021 - (下) - 深度学习基本概念简介_哔哩哔哩_bilibilithis course focus on deep learning,函式是 类神经网路 supervised learningself- supervised learning, pre-train(模型先练基本功 downstream tasks下游任务这个可以理解为,训练了编码器,也可以叫特征提取器 GPT-3 > T5 > GPT-2 > BERT > ELMo GAN 生成对抗网络刚开始时,18年,错误率比正确率高最
2022-10-11 23:46:20 242
原创 吴恩达 深度学习1 2022, 浙大AI第一课
举个算法改进的例子,NN一个巨大的突破是,之前神经网络神经元的激活函数是Sigmoid函数,后来改成了ReLU函数。gradient=0,参数会变化的很慢,学习也会变的很慢)。然而,ReLU函数在x大于零的区域,其梯度始终为1,尽管在x小于零的区域梯度为0,但是在实际应用中采用ReLU函数确实要比Sigmoid函数快很多。神经网络在很多短期经济价值的创造,是基于Structured Data,e.g.广告系统,better profit recommendations,处理很多公司拥有的海量数据库,
2022-10-11 10:32:01 397
原创 吴恩达 机器学习2022 第一课
一共有三个部分:Supervised Machine Learning: Regression and Classification,Advanced Learning Algorithms,Unsupervised Learning, Recommenders, ReinforcementAGI即Artificial general intelligence的简写,人工通用智能。
2022-10-11 10:29:27 689
原创 非线性优化 基础概念(方述诚1
quadratic 二次时, 1个quadratic 目标函数,2个quadratic constraint,只要这2个quadratic constraint不是convex type,global optimization我们做不了,做的最好的用的SDP方法(半正定规划)泰勒展开,永远可以做一阶的逼近,linear approximation,一个非线性函数,不求精确解时,可以用线性函数来approximate。NLP 做optimal问题;VI、 NLCP 比NLP更难,可以做均衡的问题。
2022-10-07 15:05:10 523
原创 鲁棒优化(方述诚6
做一个有数学意义的model、赋予两个不同的数学系统,有一个interpretion,先make assumption。feasible,且在较大的solution set上optimal(只要掉在小区域内)g(t), f(t) 形式不约束,很可能变成non convex的问题。LP assumption:certainty, 资料精确。最糟糕的情况下,损失最小 (behavior)已经做了很多步,或者 再加一个变化不大时,两个无穷多线性不等式,n+1个var.鲁棒问题就看怎么interpret。
2022-10-07 00:43:23 209
原创 内点法(方述诚 笔记5
motivation:大型计算时不是第一个多项式时间算法,如果看到很好的方向,可以直接过去,(沿边走、方向被限制),但是看多个方向,计算量增加()()good enough 时,到边附近足够多,就跳上边界点,进化purification(identify谁是nbv 设为0)
2022-10-06 14:10:14 425
原创 对偶理论,敏感性分析(方述诚 笔记4
本讲内容:dual LP问题的背面,对偶变数、对偶约束、对偶理论:对偶问题和原问题如何相连, ----> KKT conditionA constraint matrix 变动 对optimal solution有什么影响 ----> 鲁棒优化之前学的又叫 revised simplex method ,区别于古早的 simplex method(图表法)、不知道现在在哪个顶点、direction、要走多少步、不是有意识的,
2022-10-04 20:21:24 652
原创 simplex method (方述诚3
M矩阵乘以X等于b矩阵,当然这个b矩阵是n*1的那个b矩阵,Mx=b。虽然M变成了M逆,但是和X中的对应关系不变。抓一个non basic variable进来,使他加大, 自然就有一个bfs缩小去补偿,------ pivoting。部分,一般都有元素为负,means 走太远,原来的就会变成0,basic variable就会变成nbv。越小的,除以d_q本身的大小(normalize),:沿着d_q方向,每走一个unit,实际上,从计算经验来说,任何一个都是一样好,最简单方法:找到的第一个就好。
2022-10-03 15:42:44 453
原创 LP的几何意义 (方述诚 笔记2
本讲内容:用几何概念,看看做LP究竟是在做什么,optimal solution会长什么样,基本的fundamental theorem of LP在说哪件事。
2022-10-02 01:41:59 647
原创 发展脉络、转换成标准型LP( 方述诚老师 线性规划1
线性优化、几何角度理解(直观看待)、单纯形法(发展该方法背后的理论,1947-198x年主导)、对偶问题 敏感性分析(参数扰动多大程度上影响结果)、内点算法 贡献1:解脱出原来的框架 单纯形法 从一个顶点移动到另一个顶点,不再从顶点沿着boundary走,而是从内部逼近一个问题。2. 多项式算法 解决大型问题 利用现代计算机技术、在多项式时间之内优化是做quantitive 定量分析的必要手段。
2022-09-28 00:34:54 883
原创 最优化方法 1(交大
优化得到的解有一定分析、刻画:一些问题,不同限制条件 得到的解不一样;优化过程中收敛的速度不同算法:梯度下降、牛顿法、内敛法、。。介绍。
2022-09-27 12:02:44 640
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人