hello_JeremyWang-CSDN博客

原创异常检测小结

1. 异常检测小结异常检测本质上就是找不同，找到检测异常的点或者数据。李宏毅老师在异常检测这部分介绍了两种方法。分别用来处理带 label 的数据以及不带 label 的数据。1.1 带 label 的数据对于带 label 的数据（此处要求数据不含杂质，即数据不包含异常值点），我们可以训练一个分类器，得到每个数据的类别以及信心分数。比如对于火影忍者的人物，我们可以训练一个分类器，将其分为鸣人、佐助、雏田等等。这个时候，如果我们给分类器一个柯南的图片，分类器也会将其分为火影中的某一类人物，但是由于分类

2022-02-22 16:17:26 1076

原创 Auto-Encoder的补充知识

Auto-Encoder的补充知识

2022-02-13 09:48:27 935 1

原创 Pytorch实战_图像降维及聚类

0. 文章说明首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是进行了部分算法的原理说明，并在原代码中加了一些讲解和注释。1. 任务简介本次 Pytorch 实战的目标是做图像的降维及聚类。所谓降维，就是将图像向一个低维空间去投影，比如将一个 28×2828 \times 2828×28 大小的图像投影到一个 222 维度的空间。这样做的目的是去除一些多余的信息，同时也方便向我们的客户或者老板展示。在降维之后，我们可以对降维后的图像进行聚类，如： Kmeans算法，或

2022-02-03 12:08:22 6802 1

原创 Pytorch实战_Seq2seq模型

1. Sequence-to-Sequence 简介大多数常见的 sequence-to-sequence (seq2seq) model 为 encoder-decoder model，主要由两个部分组成，分别是 Encoder 和 Decoder，而这两个部分大多数是由 recurrent neural network (RNN) 实现。Encoder 是将一连串的输入，如文字、影片、声音讯号等，编码为单个向量，这个向量可以想像为整个输入的抽象表示，包含了整个输入的资讯。Decoder 是將 En

2022-01-27 21:48:41 3840 2

原创优先队列基础知识

0. 简介最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。1. 优先队列简介优先队列（Priority Queue）

2022-01-23 11:26:39 1549

原创队列基础知识

0. 简介最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。1. 队列简介队列（Queue）：简称为队，一种线性表数据

2022-01-21 11:00:48 750

原创单调栈简介

0. 简介最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。1. 单调栈简介单调栈是一种特殊的堆栈的形式。它在栈的「

2022-01-19 10:12:13 1659 1

原创 Pytorch实战_神经网络的压缩（Network Compression）

1. 神经网络的压缩对于一些大型的神经网络，它的网络结构是十分复杂的（听说华为的一些神经网络有上亿的神经元组成），我们很难在很小的设备中（比如我们的apple watch）上面将这个这个神经网络放上去。这就要求我们能有能力将神经网络进行压缩，也就是 Networ Compression。李宏毅老师在课程中提到了5中神经网络的压缩方式：Network PruningKnowledge DistillationParameter QuantizationArchitec DesignDynam

2022-01-16 19:26:31 1903

原创栈的基础知识

0. 简介最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。1. 栈的简介栈是数据结构中常见的一种数据存储方式。栈的全

2022-01-16 09:53:34 2633

原创链表的基础知识

0. 简介最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。1.链表的简介链表（Linked List）：一种线性表

2022-01-13 23:49:09 622

原创 Python中类的继承

1. 单继承继承的主要作用是实现代码的重用。继承使得子类拥有父类的方法和属性。直接来看一个例子吧。class animal: def eat(self): print("吃") def drink(self): print("喝") class dog(animal): def dark(self): print("汪汪叫") goudan = dog()goudan.eat()goudan.drink()从上面的代码可以看出，在编写dog类的时候，我们并没有

2022-01-08 16:02:37 31161 12

原创数组双指针和数组窗口

0. 内容说明最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。需要指出的是：本次博客的内容更像是对上述两个资料做的笔记

2021-11-25 21:06:10 4719

原创二分查找简介

1. 二分法简介在上一节，我们通过各种排序算法实现了对数组的排序。排序之后我们可以做什么呢？自然的一个想法是去使用排序好的数组去查找某个特定数组的位置。其中，比较著名的算法就是二分查找。二分查找，顾名思义，就是不断地将排序好的数组进行二分，逐步缩小范围，直到找到元素或找不到该元素为止。大家可以从一个动图中理解二分查找的含义。2. 二分查找实现二分查找的实现有两种常见的思路。第一种是直接查找，第二种是排除法。2.1 直接查找直接查找的思路是：取两个节点中心位置 mid，先看中心位置值 num

2021-11-23 20:25:48 404

原创数组排序基础

0. 内容说明最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。需要指出的是：本次博客的内容更像是对上述两个资料做的笔记

2021-11-21 16:47:04 534

原创 Pytorch实战__反向攻击（Adversarial Attack）

0. 介绍首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些讲解和注释，以及将繁体字改成了简体字。今天的内容，说实在话，有点像是教咱们如何成为一名“特工”（哈哈~~碰巧最近在回顾马特达蒙的谍影重重，感觉这一部分还挺有趣）。首先我们来介绍一下反向攻击这个词以及代码中涉及的算法。反向攻击就是在原图片中加一些极其微小的杂讯（这些杂讯有时候人眼根本看不出来），以使得我们之前训练出来的很不错的神经网络失效。听起来是不是很酷，以后提前偷摸下班的时候就可以不被摄像

2021-11-18 21:30:58 3499 3

原创数组基本知识

1. 数组的基本定义数组是存放在连续内存空间上的相同类型数据的集合。数组可以方便的通过下标索引的方式获取到下标下对应的数据。数组的两大特点：线性表和连续的内存空间。线性表：线性表就是所有数据元素排成像一条线一样的结构，线性表上的数据元素都是相同类型，且每个数据元素最多只有前、后两个方向。连续的内存空间：线性表有两种存储结构：「顺序存储结构」和「链式存储结构」（在上一篇blog 数据结构与算法简介中有介绍）。其中，「顺序存储结构」是指占用的内存空间是连续的，相邻数据元素之间，物理内存上的存

2021-11-17 11:45:49 924

原创 Notes for Deep Learning Lessons of Pro. Hung-yi Lee (5)

0. IntroductionIn this lesson, Pro.Lee teaches us a new field(actually for me, it is completely new) called explainable deep learning. In this field, I mainly want to introduce a special model, which is known as Lime.1. LimeThe main thought of Lime is t

2021-11-14 21:03:10 447

原创数据结构与算法简介

0. 内容说明最近在自己编写一些小的算法的时候，深感自己的算法过于臃肿。碰巧Datawhale在新的一期组队学习中组织了数据结构与算法的课程学习。于是就参加了，再次感谢Datawhale~~首先跟大家分享一下两个自己感觉比较好的学习资料，一个是算法通关手册，也是Datawhale在本次组队学习中的学习资料；一个是B站上的视频【北京大学】数据结构与算法Python版（完整版），老师讲的特别棒（也难得有Python版的数据结构课程，哈哈~）。需要指出的是：本次博客的内容更像是对上述两个资料做的笔记

2021-11-14 11:47:13 2665

原创词嵌入Word Embedding

1. Word Embedding上一个博客 Pytorch实战__LSTM做文本分类中我们提到了Word Embedding方法，这种方法的本质想法是将词语映射到向量空间上去，同时尽可能地保留词语之间的联系。可以理解为把词语翻译成网络能看懂的形式。一个著名的例子就是下图，可以看到，King-man+women=Queen，这正好符合我们的常识。Word Embedding最重要的模型是Word2vec模型。下面就简单地介绍Word2vec模型中两个最常见的算法：Skip-gram（跳字模型）和 C

2021-11-07 15:47:53 237

原创 Pytorch实战__LSTM做文本分类

0. 介绍首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些讲解和注释，以及将繁体字改成了简体字。我们需要处理的问题是将Twitter上的文字评论分为正面和负面。具体的要求如下：我们使用到的模型如下所示：其中，word embedding是将词语转换为向量，以便于后续放入LSTM中进行训练。在下面的代码中，作者选用的是word2vec模型（Skip-gram、CBOW等）完成这个转换。具体的算法大家可以在CSDN或者B站搜索大佬们的文章来学习。

2021-10-31 22:32:36 13822 5

原创 Pytorch实战__CNN做图像分类

0. 介绍首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些注释和讲解，以及将繁体字改成了简体字。我们要解决的问题是一个食物图片分类的问题。如下图中，我们要将荷包蛋和肉分开。总得来说，食物的种类一共有11类，分别是：Bread、Dairy product、Dessert、Egg、Fried food、Meat、Noodles/Pasta、Rice、Seafood、Soup、Vegetable/Fruit。训练集中有9866张图片，验证集中有3430

2021-10-28 11:13:15 3722

原创卷积神经网络（CNN）基础

1. CNN的两大特点李宏毅老师在课程的第一张PPT就提出了这样一个问题：“我们可以通过考虑图片的性质来简化我们的网络呢？”。对于图像处理而言，这是一个十分有价值的思考题。因为我们通常面对的图像数据都是一个很大维度的矩阵，如果我们简单地采用全连接神经网络去处理这种数据，会导致参数过大，训练过程十分繁琐。为了解决这种问题，CNN应运而生。在介绍CNN究竟是怎么利用图像特点来训练之前，我们首先给出CNN的两大特征，之后，会详细阐明这两大特征。提取图像的突出特征去学习，而不是学习整个图片在保留图片特征

2021-10-24 22:54:05 565

原创 Notes for Deep Learning Lessons of Pro. Hung-yi Lee (4)

1. Tips for DNNIn this lesson, Pro. LEE taught us some tips for deep neural network, which contains：Adaptive Learning RateNew Activation FunctionDropoutRegularizationEarly Stopping1.1 Adaptive Learning rateThe knowledge about Adaptive Learning R

2021-10-21 23:56:17 173

原创 Pytorch实战（1）

需要指出的是，本文第一部分的代码完全来自于Datawhale团队，感谢~~第二部分是自己独立搭建的第一个小的网络模型。1. FashionMNIST时装分类经过前面三节内容的学习，我们完成了以下的内容：对PyTorch有了初步的认识学会了如何安装PyTorch以及对应的编程环境学习了PyTorch最核心的理论基础（张量&自动求导）梳理了利用PyTorch完成深度学习的主要步骤和对应实现方式现在，我们通过一个基础实战案例，将第一部分所涉及的PyTorch入门知识串起来，便于大家加深

2021-10-20 20:18:07 3498 1

原创 Pytorch主要组成模块

1. 数据读入模块PyTorch数据读入是通过Dataset + DataLoader的方式完成的，Dataset定义好数据的格式和数据变换形式，Dataloader用iterative的方式不断读入批次数据。组成Dataset的主要方式有两种，用程序自带的数据集或者我们可以定义自己的Dataset类来实现灵活的数据读取。下面以cifar10数据集为例：程序自带读取方式train_data = torchvision.datasets.CIFAR10(root="./torch_dataset",

2021-10-18 22:18:12 402

原创 Notes for Deep Learning Lessons of Pro. Hung-yi Lee (3)

To be honest, I did not fully understand the process of developing perceptron to nerual network. Today, Pro. Lee help me solve this problem. Well, feel good. Maybe I have not gotten that point, haha.As we all know, the perceptron model is a linear model.

2021-10-12 20:09:12 133

原创 Notes for Deep Learning Lessons of Pro. Hung-yi Lee (2)

Today, Knowledge concerning about the optimization of deep learning is written here. What is the meaning of optimaztion? The following ppt shows us the answer.1. SGD with Momentum (SGDM)Just as the name shows us, SGDM is invented by combining SGD with M

2021-10-10 20:15:52 177

原创 Pytorch基础知识

1. 张量注意是张量，不是麻辣烫，哈哈哈。（冷笑话又多了）张量（Tensor）可能是Pytorch中最重要的数据形式了，也是整个运算的基础。那什么是张量呢？个人理解就是向量和矩阵的推广。比如我们常见的图片，它是由RGB三通道表示的，那一张图片就可以由一个(width, height, channel)的三维字段来表示。而对于多张图片，就需要一个4D的张量来表示，即：(sample_size, width, height, channel)。1.1 张量数据生成常见的数据生成操作如下图所示：

2021-10-10 10:54:49 557

原创 Pytorch简介和安装

1. Pytorch简介1.1. Pytorch的介绍PyTorch是由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库，目前被广泛应用于学术界和工业界，而随着Caffe2项目并入Pytorch， Pytorch开始影响到TensorFlow在深度学习应用框架领域的地位。总的来说，PyTorch是当前难得的简洁优雅且高效快速的框架。因此本课程我们选择了PyTorch来进行开源学习。1.2 Pytorch的优势PyTorch有着下面的优势：更加简

2021-10-09 19:47:37 685

原创 Notes for Deep Learning Lessons of Pro. Hung-yi Lee (1)

I will try to use English to write down the knowledge learned in this class, just with the aim to make sure I will not forget this important language tool. I hope I can achieve this target. Maybe I will give up one day, haha.1. Tip1 for Gradient Descent

2021-10-07 17:14:06 196

原创李宏毅深度学习_homework01

需要指出的是，以下内容是由李宏毅老师的课程中得到。Homework 1: Linear Regression本次目標：由前 9 個小時的 18 個 features (包含 PM2.5)預測的 10 個小時的 PM2.5。Load 'train.csv’train.csv 的資料為 12 個月中，每個月取 20 天，每天 24 小時的資料(每小時資料有 18 個 features)。import sysimport pandas as pdimport numpy as npfrom go

2021-10-05 20:16:14 258

原创数据挖掘竞赛_二手车交易价格_Task01&02

最近在参加 ‘Coggle数据科学30 Days of ML’ 的学习活动，将所做的笔记在这里记录一下。活动是完全免费的，感觉是一个很好的提升机会。活动的宣传图片如下：好啦，进入正题导入包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')Task01 读入数据方法

2021-10-05 11:33:06 363

原创 HMM模型做中文分词

本节代码通过HMM模型进行了中文分词import mathimport matplotlib.pyplot as pltimport numpy as npimport codecsimport randominfinite = -(2**31)def log_normalize(a): s = 0 for x in a: s += x s = math.log(s) for i in range(len(a)): if a

2021-09-26 22:24:33 337

原创 LSA模型和LDA模型在文本处理中的应用

from gensim import corpora, models, similaritiesfrom pprint import pprint# import logging# logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)if __name__ == '__main__': f = open('LDA_test.txt') stop_li

2021-09-24 10:33:10 317

原创文本分类实例和Word2vec实例

本节的代码做了一下简单的文本分类，文本选用的是sklearn中自带的文本，加载后使用td-idf将文本向量化，之后采取了多种分类器进行了分类，并比较了各个分类器之间的误差。import numpy as npfrom sklearn.naive_bayes import MultinomialNB, BernoulliNBfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import

2021-09-21 10:39:45 6170

原创 GMM与EM算法

GMM，也即混合高斯模型，可以用来拟合多类别的混合数据，也因此可以用来作为一种无监督的分类算法。具体做法也较为简单，即将数据代入模型中，观察其在哪个高斯分布下的概率密度值最高，就将其分为哪一类。而EM算法在其中的作用即是用来估计GMM的各个参数。import numpy as npfrom sklearn.mixture import GaussianMixturefrom sklearn.model_selection import train_test_splitimport matplotli

2021-09-19 10:51:36 422

原创聚类分析实战

1. K-Means++K-Means算法就不再多说了，主要用到了sklearn中的KMeans函数，并将设置init='k-means++'即可。K-Means++主要需要调节的参数是簇的个数，也就是函数中的n_clusters参数。具体的实例如下，代码中探索了不同数据分布对K-Means++算法的影响。import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlib.c

2021-09-16 10:39:46 560

原创聚类分析的一些笔记

2021-09-12 09:11:18 151

原创 SVM实践

1. SVM多分类案例SVM从原理而言只能做二分类任务。但是如果我们同时使用多个SVM去对数据进行拟合，就可以实现多分类的任务了。在sklearn包中，我们可以选择两种方式（ decision_function_shape参数）去实现多分类任务，第一种是“ovo”，即一对一模式，如我们要将数据分为四类，便需要建立六个分类器（1vs2,1vs3,1vs4,2vs3,2vs4,3vs4）。第二种是“ovr”模型，即一对其他模型，如我们要将数据分为四类，便需要建立四个分类器（1 vs others,2 vs o

2021-09-09 10:14:06 955

原创 SVM推导（一）

2021-09-05 23:09:48 120

空空如也

空空如也