linyuxi_loretta-CSDN博客

原创斯坦福21秋实用机器学习（李沐）1. 课程介绍、数据获取、网页抓取、数据标注

可能一开始不会去试任何什么特别高大上的深度学习的模型，我肯定是来训练一个比较简单的模型，比如说我就训练一个最简单的线性回归，主要是用来测试我的整个数据是怎么样子，用一个简单模型来测试数据的好坏。在真正的工业界的应用来说，需要去开发和维护大量的代码，大量的一些产品一些组件，比如说包括了我怎么样把数据，实时的从产品那边抽取过来，然后做比较高性能的那些数据处理。或者是说你之前训练的模型，突然碰到一个节假日，整个用户的行为发生变化了，那么这时候你发现你的模型对于人的预测，是会有不一样的地方。

2023-04-05 22:24:51 420 1

原创李宏毅2023春季机器学习笔记 - 01生成AI（ChatGPT）

预设的知识储备要求：数学（微积分、线性代数、机率）；编程能力（读写python）这门课专注在深度学习领域deep learning，事实上深度学习在今天的整个机器学习（ML）的领域使用非常广泛，可以说是最受重视的一项ML技术。这门课可以作为你的机器学习的第一堂课，修完后可以更深入的把这个技术，用在你未来感兴趣的领域。课程录像和作业：如果只凭google colab可以取得及格的成绩，基本上如果有越多的运算资源，越有机会在这门课取得比较好的成绩。

2023-03-13 15:48:51 5681

原创 CNN (吴恩达 2021

这里只有这些超参需要你设定一次，或许是人工设定或者使用交叉检验across validation。

2022-11-18 04:34:24 777 1

原创 pytorch入门教程（小土堆

pytorch入门教程、一些基础函数的概念（参考代码），主要是带着读了一遍pytorch官方文档、另外推荐一个网站 www.paperswithcode.com，感觉很厉害的样子。

2022-11-16 21:36:41 868

原创刘二大人CNN

0、前一部分卷积层和 subsampling 叫做Feature Extraction特征提取器，后一部分叫做classification1、每一个卷积核它的通道数量要求和输入通道是一样的。这种卷积核的总数有多少个和你输出通道的数量是一样的。2、卷积(convolution)后，C(Channels)变，W(width)和H(Height)可变可不变，取决于是否padding。subsampling(或pooling)后，C不变，W和H变。3、卷积层：保留图像的空间信息。

2022-11-15 17:43:40 949

原创 2021-2022 机器学习结语（李宏毅

如果有一个人告诉你train deep network不用通灵，都知道超参数、learning rate、network应该多深，你要怀疑他到底有没有实际train过model的经验，training的结果千奇百怪往往无法预测。想更深入研究机器学习的各个主题：http://ai.ntu.edu.tw/mlss2021，最前瞻的主题进展状况。transformer 的input跟output的长度可以是不一样的，这学期的课程内容，跟过去的课程内容比较一下的话，会发现还是有蛮大不同的。输入：matrix。

2022-11-13 02:33:36 421

原创 meta learning（李宏毅

meta 元meta learning： learn to learn 学习如何学习大部分的时候deep learning就是在调hyperparameter、调hyperparameter真的很烦，决定什么network的架构啊、决定learning rate啊等等、实际上没有什么好方法来调这些hyperparameter、今天业界最常拿来解决调hyperparameter的方法呢就是买很多张gpu了、

2022-11-13 01:51:55 1095 1

原创 2022人工智能数学基础2（交大许老师

参数量>>数据量过参数化限制条件没法完全限制住参数，多解神经网络为什么好，应用的数据图片、语言、文字这些数据很有价值训练过程似乎遵循某些基本原则，叫“隐式正则化 ” 隐式偏向（人的意识里）为什么偏向先学习低频？ReLU关于ξ^2衰减函数积分后更光滑；光滑则衰减更快；频率空间和时域空间无法同时精确光滑性就是看能否求导、是否连续激活函数在傅里叶空间单调衰减、和神经网络在傅里叶空间具有某种单调性是一致的。二次函数*高斯函数震荡越厉害，高频越多加速高频的收敛以两层神经网络为例：

2022-11-08 00:53:49 521

原创 2022人工智能数学基础1-2（许志钦

我们在前面定义的傅里叶变换里的频率，是一种input-output mapping的频率，如右边的例子，才是我们关注的频率。本质上就是把函数分解到三角函数上去研究，好处很多：cos导数-sin，sin导数cos，漂亮的周期、无穷、光滑、...或者是输入变化对输出变化的影响大小，输入发生变化，输出变化很慢，低频。6w个数据点，160w个参数的模型来拟合，参数数目>>训练样本数，传统的学习理论会觉得肯定过拟合，神经网络DNN 特点是参数特别多，能够拟合的好的函数中，只有一小部分可以泛化的好。

2022-11-06 03:51:53 616

原创 2021 Lifelong learning（李宏毅

Lifelong learning探讨的问题是，一个模型能否在很多个task上表现都很好。如此下去，模型能力就会越来越强。Life Long Learning 的難點出在什麼樣的地方：這個算是同一個任務不同的 Domain機器先學個語音辨識、再學個翻譯、再学个影像辨识。。Lifelong learning沒有做到那個程度一般在 Life Long Learning 的文獻上，所謂的不同任務指的差不多就是我这里例子的等级，e.g.2 问答系统。

2022-11-05 00:46:49 559

原创 2021 神经网络压缩（李宏毅

首先，为什么需要对神经网络模型进行压缩呢？我们在之前的课程中介绍过很多大型的深度学习模型，但当我们想要将这些大模型放在算力比较小的边缘设备或者其他IoT设备里面，就需要对大模型进行压缩。Lower latency：低时延 Privacy：私密性介绍5个网络压缩的方法，我们只考虑算法（软件）层面，不考虑硬件层面的解决方法。

2022-11-05 00:46:18 1574 4

原创 2021 增强式学习RL 李宏毅

最简单的但其实是不正确的版本，作业simple code的版本，通常搜集资料时，通常做多个episode，比如说助教的simple code里跑了5个episode，才搜集到足够的资料。这不是一个好方法，因为学出来的network是一个短视近力的actor，因为每个行为都会影响互动接下来的发展，每个行为并不是独立的。而且存在Reward delay。“牺牲短期利益”，这个版本机器只会学到疯狂开火只有这个行为是被鼓励的。

2022-11-04 14:44:43 980

原创 2021 Domain Adaptation（李宏毅

在前面介绍的模型中，一般我们都会假设训练资料和测试资料符合相同的分布。而。（域的转变）Domain Adaptation领域自适应学习，就是将在A domain上学到的东西应用到B domain上，这个技术也可以看作是transfer learning的其中一个环节（在A任务上学到的技能可以用到B任务上）。Domain Shift,其实有很多种不同的类型：模型输入的资料的分布有变化（源域黑白，目标域彩色）输出的分布也可能有变化（源域均匀分布，目标域极端分布）

2022-11-02 23:01:43 548

原创 2021 Adversarial Attack（李宏毅

今天 Adversarial Attack這麼容易成功这个领域为对抗攻击与防御（Adversarial Attack and Defense），目前攻击是比较容易的而防御比较困难。在将神经网络模型应用于实际场景时，它仅仅拥有较高的正确率是不够的，还希望它能够应对来自外界的“恶意”，特别是在垃圾邮件分类、恶意软件检测、网络入侵检测等任务中，那些负类样本也会想尽办法来“欺骗”模型，使模型无法辨别出它为负类。因此我们希望我们的模型能够拥有应对这种攻击的能力。

2022-11-02 19:10:41 433

原创 2021 Explainable ML（李宏毅

1. correct answers ≠ intelligent e.g.神马汉斯2. 在很多真實的應用中，可解釋性的模型往往是必須的3. 可解释性ML的可提升ML model。今天在使用這些深度學習技術的時候、往往狀況是這個樣子、有某人说”這個就是你的機器學習的系統“，- 是啊我就是把資料丟進去、、裡面就是有很多矩陣的相乘、就會跑出我的結果。如果結果不如預期的話，怎麼樣呢- 現在大家都知道就爆調一下參數對不對、、改個 Learning Rate、調一下 Network 的架構對不對，

2022-11-02 00:19:40 302

原创 2021 Anomaly Detection (李宏毅

異常偵測就是、我們要讓機器可以知道、我不知道這件事情那在這門課裡面呢、我們通常用上標、來表示一個完整的東西、用下标，來表示一個完整東西的其中一個部份，novelty这个词汇，顯然是要找一個新的東西，比较正面的意思什麼叫做像訓練資料呢、这就是Anomaly Detection里需要探讨的问题。不同的方法，它就用不同的方式來定義similar，这里强调一下，這個所謂的異常、我們到底要檢測出什麼東西、其實是取決於你提供給機器什么样的训练资料，

2022-11-01 17:39:04 355

原创 Auto-encoder （李宏毅2022

那其实还有更多疯狂的想法，Representation 甚至不一定要是向量，举例来说，它也可以是一段文字。假设我们现在要做文字的 Auto-Encoder，概念和语音、影像的没有什么不同，但我们现在可以不用向量来当做 Embedding，可以是一串文字。如果把 Embedding 变成一串文字有什么好处呢？

2022-11-01 01:11:57 366

原创语音与影像上的自督导式学习模型、一些老版本的补充（李宏毅2022

如果要训练一个好的语音辨识的模型，没用self supervised 技术，直接训练一个end-to-end的model，通常要上万个小时的声音讯号（labeled），但是今天有了语音版的bert，很多人想挑战只用10min的资料训练语音辨识的模型，微调语音版的bert往往不必要，往往固定住语音版的bert，只微调downstream model就可以得到不错的结果了。ASR语音辨识、唤醒词、

2022-10-31 16:15:02 894

原创 Data efficient &parameter efficient tuning 助教姜成翰

embedding layer就是把离散的token转换成连续的向量，这些向量就会被丢到一层又一层的transformer，每层的transformer就会抽出每一个token对应的embedding，到最后一层就会抽出最凶的embedding。self-supervised learning这是最近几年窜出来的一个名词，没有一个明确的定义，大概想法是：预测input的某一部分，给定其他的部分。与其让model 隐性的学到multi-task的能力，不如让model主动具备这样的能力。

2022-10-28 12:35:59 759

原创自监督模型 Self-supervised learning（李宏毅2022

这个红色的怪物叫做ELMo 、最早的self-supervised learning model作业四的模型也是个transformer，只有0.1个millionCookie Monster等你来凑😼T5是Google做的，跟车子也没什么关系，在没有label情况下，自己想办法做supervised；将没有标注的资料分成两部分，一部分作为输入，一部分作为标注，进行训练；自监督学习是unsupervised learning中的一种方法；

2022-10-27 02:48:18 2159

原创机器学习2017，Regression（李宏毅

对于左边的情况，上面讲过这种狭长的情形不过不用Adagrad的话是比较难处理的，两个方向上需要不同的学习率，同一组学习率会搞不定它。不考虑s的话，可以看出剩下的部分就是两个向量(△θ1,△θ2) 和 (u,v)的内积，那怎样让它最小，就是和向量 (u,v)方向相反的向量。式1-2只考虑了泰勒展开式的一次项，如果考虑到二次项，理论上learning rate就可以设大一点（比如牛顿法），在实际中不是特别好，不划算。有一系列的方法，都是Ada- 开头，老师觉得现在Adam方法最稳定，式子略复杂。

2022-10-25 20:53:48 700

原创机器学习2017，导言（李宏毅

2021偏向深度学习，相对前沿一点的知识；2017偏向机器学习，经典的知识从今年开始（2017年），人工智慧这个词突然变得非常非常非常的热门，讲大家、政府通都在讲人工智慧这个词。但人工智慧是什么呢？人工智慧其实一点都不是新的词汇，人工智慧(AI)、Artificial Intelligence这个词汇，在1950年代就有了。那这个词意味着什么呢？这个词意味着一个人类长远以来的目标，希望机器可以跟人一样的聪明。在科幻小说里面，我们看要很多这样的幻想和期待。

2022-10-25 12:24:12 160

原创生成式对抗网络（GAN）（李宏毅2022）

我们。

2022-10-24 10:26:51 1421

原创 Transformer（李宏毅2022）

（作业五）变形金刚的英文就是Transformer,那Transformer也跟我们之后会,提到的BERT有非常强烈的关係,

2022-10-18 22:25:35 2508 2

原创 Self-attention（李宏毅2022

此前，我们network的input都是一个向量，输出可能是一个数值或者一个类别。但是假设我们需要输入的是一排向量，并且向量的个数可能会发生改变，这个时候要怎么处理。将单词表示为向量的方法：One-hot Encoding。我们可以用很长的一个向量，来表示世界上所有的东西，但是这里有一个问题，它假设所有的词汇都是没有关系的，比如猫和狗，都是动物，但是这样没有办法把它分类在一起，没有语义的资讯。另一个方法是Word Embedding：我们给每个词汇一个向量，这个向量里有语义的信息。

2022-10-17 15:11:59 1100

原创图像识别：CNN、Spatial Transformer Layer（李宏毅2022

convolutional layer就是，里面有一排filter，每个都是一个3 x 3 x channel 这么大的tensor，每个filter的作用就是抓取图片里的某个pattern，每个pattern需要在3 x 3 x channel那么小的范围内，才能被filter抓出来。pooling本身没有参数，没有要Learn的东西，所以他不是个layer，比较像是个activation function，他就是一个operator，他的行为都是固定好的，没有要根据data学任何东西。

2022-10-16 22:16:59 760

原创深度学习理论（李宏毅

但是怎么定这个有未知数的function呢、那通常假设你没有什么想法的话、往往你需要先对你的资料做一些观察、想象一下，假设有一个function可以成功的分类宝可梦跟数码宝贝、那这个function它应该长什么样子所以，开始进行机器学习之前，也许我们先对资料进行一些观察。好在经过一番观察以后。我发现他们虽然长得很像，但其实还是有显著差异：画风不同很多package呢可以帮你把一个图片里面的线呢把它画出来。细节不重要，总之扣一个library自动会产生这种边线的图。

2022-10-16 14:51:20 2946

原创类神经网络训练不起来怎么办，局部最小值与鞍点, batch, momentum, Adaptive Learning Rate，调损失函数。李宏毅2022

每个作业通关攻略如果不满意kaggle上的结果：先檢查你的training data loss、看看你的model在training data上面有沒有學起來 which one？判断方法：透過比較不同的模型、來得知說、你的model現在到底夠不夠大 e.g. residual network（2015）paper，測2個networks，一个20层、一个56层，橫軸指的是training的過程、那個時候大家對Deep Learning有各種奇怪的誤解，很多人看到這張圖都會說、這個代表overfi

2022-10-14 20:18:48 412

原创分类问题：Generative model 、Logistic Regression、

Colab这是谷歌提供的免费远程使用Gpu的网站，jupyter也可以的，这个就是为了让你可以不用自己买gpu跑程式 Classification(选修)To Learn More - 分类神奇宝贝Pokemon_哔哩哔哩_bilibili中文有至少 8000 個 character，classification 第一個問題，就是怎麼把一隻寶可夢當作function 的 input，數值化。那我們要怎麼把一隻寶可夢用數字來表示呢？一隻寶可夢，其實它有很多的特性，這些特性是可以數值化的，比如說，它整體的強度

2022-10-12 17:38:44 300

原创深度学习01 基本概念简介李宏毅2022

2021 - (下) - 深度学习基本概念简介_哔哩哔哩_bilibilithis course focus on deep learning，函式是类神经网路 supervised learningself- supervised learning， pre-train（模型先练基本功 downstream tasks下游任务这个可以理解为，训练了编码器，也可以叫特征提取器 GPT-3 > T5 > GPT-2 > BERT > ELMo GAN 生成对抗网络刚开始时，18年，错误率比正确率高最

2022-10-11 23:46:20 242

原创吴恩达深度学习1 2022，浙大AI第一课

举个算法改进的例子，NN一个巨大的突破是，之前神经网络神经元的激活函数是Sigmoid函数，后来改成了ReLU函数。gradient=0，参数会变化的很慢，学习也会变的很慢）。然而，ReLU函数在x大于零的区域，其梯度始终为1，尽管在x小于零的区域梯度为0，但是在实际应用中采用ReLU函数确实要比Sigmoid函数快很多。神经网络在很多短期经济价值的创造，是基于Structured Data，e.g.广告系统，better profit recommendations，处理很多公司拥有的海量数据库，

2022-10-11 10:32:01 397

原创吴恩达机器学习2022 第一课

一共有三个部分：Supervised Machine Learning: Regression and Classification,Advanced Learning Algorithms,Unsupervised Learning, Recommenders, ReinforcementAGI即Artificial general intelligence的简写，人工通用智能。

2022-10-11 10:29:27 689

原创非线性优化基础概念（方述诚1

quadratic 二次时， 1个quadratic 目标函数，2个quadratic constraint，只要这2个quadratic constraint不是convex type，global optimization我们做不了，做的最好的用的SDP方法（半正定规划）泰勒展开，永远可以做一阶的逼近，linear approximation，一个非线性函数，不求精确解时，可以用线性函数来approximate。NLP 做optimal问题；VI、 NLCP 比NLP更难，可以做均衡的问题。

2022-10-07 15:05:10 523

原创鲁棒优化（方述诚6

做一个有数学意义的model、赋予两个不同的数学系统，有一个interpretion，先make assumption。feasible，且在较大的solution set上optimal（只要掉在小区域内）g(t), f(t) 形式不约束，很可能变成non convex的问题。LP assumption：certainty, 资料精确。最糟糕的情况下，损失最小（behavior）已经做了很多步，或者再加一个变化不大时，两个无穷多线性不等式，n+1个var.鲁棒问题就看怎么interpret。

2022-10-07 00:43:23 209

原创内点法（方述诚笔记5

motivation：大型计算时不是第一个多项式时间算法，如果看到很好的方向，可以直接过去，（沿边走、方向被限制），但是看多个方向，计算量增加()()good enough 时，到边附近足够多，就跳上边界点，进化purification（identify谁是nbv 设为0）

2022-10-06 14:10:14 425

原创对偶理论，敏感性分析（方述诚笔记4

本讲内容：dual LP问题的背面，对偶变数、对偶约束、对偶理论：对偶问题和原问题如何相连， ----> KKT conditionA constraint matrix 变动对optimal solution有什么影响 ----> 鲁棒优化之前学的又叫 revised simplex method ，区别于古早的 simplex method（图表法）、不知道现在在哪个顶点、direction、要走多少步、不是有意识的，

2022-10-04 20:21:24 652

原创 simplex method (方述诚3

M矩阵乘以X等于b矩阵，当然这个b矩阵是n*1的那个b矩阵，Mx=b。虽然M变成了M逆，但是和X中的对应关系不变。抓一个non basic variable进来，使他加大，自然就有一个bfs缩小去补偿，------ pivoting。部分，一般都有元素为负，means 走太远，原来的就会变成0，basic variable就会变成nbv。越小的，除以d_q本身的大小（normalize），：沿着d_q方向，每走一个unit，实际上，从计算经验来说，任何一个都是一样好，最简单方法：找到的第一个就好。

2022-10-03 15:42:44 453

空空如也

空空如也