自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 问答 (1)
  • 收藏
  • 关注

原创 Recommender System复习(考试向)

对于基于邻域的机器学习算法来说,如果要给一个用户推荐商品,那么有两种方式。一种是基于物品的,另一种是基于用户的。基于物品的是,从该用户之前的购买商品中,推荐给他相似的商品。基于用户的是,找出于该用户相似的用户,然后推荐给他相似用户购买的商品。但是,推荐系统除了这两种之外,还有其他的方式。例如如果知道该用户的兴趣分类,可以给他推荐该类别的商品。为了实现这一功能,我们需要根据用户的行为数据得到用户对于不同分类的兴趣,以及不同商品的类别归属。

2023-11-03 16:54:22 181

原创 Graph 部分复习(考试向)

在没有Dead Ends的情况下,每次迭代后向量v各项的和始终保持为1,而有了Dead Ends,迭代结果将最终归零处理Dead Ends的方法如下:迭代拿掉图中的Dead Ends节点及Dead Ends节点相关的边(之所以迭代拿掉是因为当目前的Dead Ends被拿掉后,可能会出现一批新的Dead Ends),直到图中没有Dead Ends。由于下面的算法,没有页面的PageRank会是0。PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。

2023-11-03 13:08:12 457

原创 Data Stream 复习(考试向)

因为每个球的放置是相互独立的,所以多个球都不被放入这个箱子的概率就是这些独立事件的乘积。所以,一个箱子没有球的概率是 (1 - 1/n)^m,其中 m 是球的数量,n 是箱子的数量。对于第二个球,同样地,每个箱子都有 1/n 的概率收到第二个球,因为球被放入箱子的概率是相同的,而且与之前球放在哪个箱子无关。因此,每个球被放入一个箱子的概率都是 1/n,而且这些概率是相互独立的,因为一个球的放置不受另一个球的放置影响。对于第三个球,同样地,每个箱子都有 1/n 的概率收到第三个球,以此类推。

2023-10-31 17:09:13 179

原创 LSH 复习(考试向)

但是,虽然我们降低了特征复杂度,如果用户非常多的话,我们的计算量依然是非常大的(O(n**2)),如果我们能先粗略地将用户分桶,将可能相似的用户以较大概率分到同一个桶内,这样每一个用户的“备选相似用户集”就会相对较小,降低寻找其相似用户的计算复杂度,LSH就是这样一个近似算法。比如,对于红色的第一列随机行号S1来说,D1的一列中D1[n] == 1所对应的行号的集合为{4,2,6,3,5},其中最小的是2,所以D1在S1上的MinHash Value是2,以此类推。

2023-10-31 10:37:34 114

原创 数据预处理(Data Preprocessing)

本文将基于UoA的课件介绍机器学习中的数据预处理。涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。Noisy Data。

2023-04-24 23:06:14 1420 1

原创 回归问题(Regression)

本文将基于UoA的课件介绍机器学习中的回归问题。涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。

2023-04-24 19:23:28 669 3

原创 集成学习(Ensembles)

本文将基于UoA的课件介绍机器学习中的集成学习。涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。AdaBoost算法的训练过程会不断增加那些被之前的分类器错分的样本的权重,这样最后一些分类器就会更关注那些难以分类的样本,从而提高整个模型的泛化能力。

2023-04-24 11:02:47 1271 6

原创 贝叶斯学习(Bayesian Learning)提高篇

本文将基于UoA的课件,连接上一篇博文介绍机器学习中的贝叶斯。看不太懂的读者请先阅读:贝叶斯学习(Bayesian Learning)基础篇涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。

2023-04-23 22:11:56 827

原创 贝叶斯学习(Bayesian Learning)基础篇

本文将基于UoA的课件介绍机器学习中的贝叶斯。涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。

2023-04-23 22:11:20 2431

原创 机器学习必知的基础概念(Fundamental Theories of Machine Learning)

以决策树入门后,如果想要训练出更加优秀的模型或者进修其他算法,一些机器学习的基础概念还是需要理解的,本篇博文将以UoA的课件为提纲,介绍一些ML的基础概念。涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。

2023-03-20 08:53:57 390

原创 以决策树(Decision Tree)作为入门

就,没啥可多说的。第一个定义可读性更强,第二个定义专业性更强,根据个人喜好喜欢哪个就去理解哪个吧。我个人是更喜欢第二个,因为在看身为百度AI首席工程师(不知道现在还是不是)的吴恩达Deep Learning 课程的时候,他就是使用这个定义入门的,虽然比较绕口,但是确确实实是ML这个东西做事的本质。这篇文章以及这个系列会包含很多UoA上课讲的一些内容,完全是个人学习的理解以及笔记记录,没有任何商业用途,侵必删。

2023-03-13 20:30:36 670 1

原创 一文入门HTML+CSS+JS(样例后续更新)

层叠样式表提供了丰富的功能,如字体、颜⾊、背景的控制及整体排版等。

2023-03-11 21:23:20 3122 2

原创 简单实用的Python图像处理库Pillow

Pillow 是Python Imaging Library 的简称,是Python 语言中最为常用的图像处理库。Pillow 库提供了对 Python3 的支持,为 Python3 解释器提供了图像处理的功能。通过使用 Pillow 库, 可以方便地使用 Python 程序对图片进行处理,例如常见的尺寸、格式、色彩、旋转等处理。

2022-11-16 09:30:18 7065 2

原创 真良心干货保姆级手把手教你Python网络编程,学不会我去你家教你

在Python语言标准库中,使用socket模块提供的socket对象,可以在计算机网络中建立可以互相通信的服务器与客户端。在服务器端需要建立一个socket对象,并等待客户端的连接。客户端使用socket对象与服务器端进行连接,一旦连接成功,客户端和服务器端就可以通信了。在Python中,通常使用一个Socket表示“打开了一个网络连接”, 语法格式如下:其中参数family: 套接字家族可以是AF_UNIX或者AF_INET;

2022-11-11 19:56:29 1776

原创 理解思想:Python多线程和并发编程

其实这里只是用Python去体会并发的思想和一些算法思想,真正想要并发的高性能还是得用C。Python作为解释型语言本身效率就远不如C。很多Python的高性能库,比如Numpy都是用C写的。所以这里只是作为并发编程的体会,并不建议真正开发的时候使用Python玩并发。

2022-11-09 10:40:35 290

原创 使用Matplotlib让你轻松入门Python数据可视化

Matplotlib 是一个Python的 2D绘图库。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。通过学习Matplotlib,可让数据可视化,更直观的真实给用户。使数据更加客观、更具有说服力。Matplotlib是Python的库,又是开发中常用的库。

2022-11-07 11:53:48 648

原创 一文带你熟悉简单实用的Python科学计算库NumPy

NumPy(Numerical Python) 是科学计算基础库,提供大量科学计算相关功能,比如数据统计,随机数生成等。其提供最核心类型为多维数组类型(ndarray),支持大量的维度数组与矩阵运算,Numpy 支持向量处理 ndarray 对象,提高程序运算速度。

2022-11-02 22:54:37 781

原创 Python闭包的连体婴:装饰器

这里在定义闭包的时候,如果没有其他需求,可以将闭包的内函数func_in()的形参和其函数体里面用于运行原函数的对象func()的形参设置成对应原函数的形参个数,然后平行地传进实参即可,而对于其他形参数量不同的元函数,可以多写几个闭包,然后用装饰器执行。思考:但是,似乎这种方式有点麻烦,如果所有函数都需要同样的新增功能,那岂不是要给所有形参数量不同的函数挨个写闭包?之前的装饰器都应用在原函数不涉及传参的情况,那么当原函数涉及传参的时候,应该如何设计装饰器呢?【注意】装饰器的名称应该是闭包。

2022-11-01 17:20:09 432

原创 10分钟让你熟练Python闭包

闭包的本质是函数。

2022-10-31 22:22:25 401

原创 保姆级教程:Python数据库编程(SQLite3+MySQL)

从Python3.x版本开始,在标准库中已经内置了SQLlite3模块,它可以支持SQLite3数据库的访问和相关的数据库操作。在需要操作SQLite3数据库数据时,只须在程序中导入SQLite3模块即可。Python语言操作SQLite3数据库的基本流程如下所示。

2022-10-31 09:34:56 2961

原创 一文带你吃透Python异常处理

程序开发中,有时候我们也需要自己定义异常类。自定义异常类一般都是运行时异常,通常继承 Exception 或其子类即可。命名一般以 Error、Exception 为后缀。自定义异常由 raise 语句主动抛出。

2022-10-30 22:14:11 396

原创 看了这篇,你也是Python文件操作高手

Python 标准库中,如下是文件操作相关的模块,我们会陆续给大家介绍。在操作文本文件时,经常会操作中文,这时候就经常会碰到乱码问题。为了让大家有能力解决中文乱码问题,这里简单介绍一下各种编码之间的关系。

2022-10-30 21:21:33 173

原创 你所熟悉的Python模块

“量变引起质变”是哲学中一个重要的理论。量变为什么会引起质变呢?本质上理解,随着数量的增加,管理方式会发生本质的变化;旧的管理方式完全不适合,必须采取新的管理方式。

2022-10-29 23:26:16 175

原创 如何深度解析Python面向对象

面向对象(Object oriented Programming,OOP)编程的思想主要是针对大型软件设计而来的。面向对象编程使程序的扩展性更强、可读性更好,使的编程可以像搭积木一样简单。面向对象编程将数据和操作数据相关的方法封装到对象中,组织代码和数据的方式更加接近人的思维,从而大大提高了编程的效率。Python 完全采用了面向对象的思想,是真正面向对象的编程语言,完全支持面向对象的基本功能,例如:继承、多态、封装等。Python 中,一切皆对象。我们在前面学习的数据类型、函数等,都是对象。

2022-10-28 17:23:05 197

原创 带你弄懂Python 函数用法和底层分析

函数是可重用的程序代码块。函数的作用,不仅可以实现代码的复用,更能实现代码的一致性。一致性指的是,只要修改函数的代码,则所有调用该函数的地方都能得到体现。在编写函数时,函数体中的代码写法和我们前面讲述的基本一致,只是对代码实现了封装,并增加了函数调用、传递参数、返回计算结果等内容。

2022-10-28 11:05:12 247

原创 K-means算法和KNN算法的区别

KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模板来分类K-means算法是聚类算法,聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。K-means算法K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。详细可以参考我的这篇博文:Python机器学习K-means..

2021-01-12 09:31:19 690

原创 在开始之前你所需要准备或者看到的

文章目录1. 环境1.1 Anaconda的安装1.2 Pycharm的安装1.3 Pycharm设置Anaconda为默认环境2. 有关GUI界面常用的GUI 库tkinter 模块3. 有关轻量级数据库SQLlite3.1 使用数据库的宏观过程3.2 数据库使用3.2.1 导入数据库模块3.2.2 打开数据库3.2.2.1 建立数据库3.2.3 创建游标3.2.4 执行SQL语句3.2.4.1 创建表3.2.4.2 新增数据3.2.4.3 更新数据3.2.4.4 删除数据3.2.4.5 查询数据3.2.

2020-08-28 10:24:44 234

原创 通俗理解BN(Batch Normalization)

1. 深度学习流程简介1)一次性设置(One time setup)- 激活函数(Activation functions)​ - 数据预处理(Data Preprocessing)​ - 权重初始化(Weight Initialization)​ - 正则化(Regularization:避免过拟合的一种技术)​ - 梯度检查(Gradient che...

2020-04-01 22:04:04 3275

原创 B站吴恩达深度学习视频笔记(34)——为什么正则化可以防止过拟合

为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)为什么正则化有利于预防过拟合呢?为什么它可以减少方差问题?我们通过两个例子来直观体会一下。左图是高偏差,右图是高方差,中间是Just Right,这几张图我们在前面课程中看到过。现在我们来看下这个庞大的深度拟合神经网络。我知道这张图不够大,深度也不够,但你可以想象这是一个过...

2020-04-01 19:19:42 319 2

原创 B站吴恩达深度学习视频笔记(33)——正则化的解释

正则化(Regularization)深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据,即存在高方差问题,那么最先想到的方法可能是正则化,另一个解决高方差的方法就是准备更多数据,...

2020-04-01 18:30:51 374

原创 B站吴恩达深度学习视频笔记(32)——神经网络训练的方差和偏差分析

这一节我们学习在神经网络学习训练时出现的结果进行分析,偏差和方差的表现和优化,仔细看好咯~偏差,方差(Bias /Variance)几乎所有机器学习从业人员都期望深刻理解偏差和方差,这两个概念易学难精,即使你自己认为已经理解了偏差和方差的基本概念,却总有一些意想不到的新东西出现。关于深度学习的误差问题,另一个趋势是对偏差和方差的权衡研究甚浅,你可能听说过这两个概念,但深度学习的误差很少权衡二...

2020-04-01 17:57:37 396

原创 B站吴恩达机器学习视频笔记(31)——网络训练验证测试数据集的组成介绍

从今天开始我们进入新的一个大方向了,改善深层神经网络:超参数调试、正则化以及优化,首先进入深度学习的一个新层面,先认识下在深度学习中的数据集的分类。之前可能大家已经了解了神经网络的组成的几个部分,那么我们将继续学习如何有效运作神经网络,内容涉及超参数调优,如何构建数据,以及如何确保优化算法快速运行,从而使学习算法在合理时间内完成自我学习。训练,验证,测试集(Train / Dev / Test...

2020-04-01 15:16:57 384

原创 B站吴恩达深度学习视频笔记(30)——深度学习与大脑的区别

深度学习和大脑有什么关联性吗?回答是:关联不大。那么人们为什么会说深度学习和大脑相关呢?当你在实现一个神经网络的时候,那些公式是你在做的东西,你会做前向传播、反向传播、梯度下降法,其实很难表述这些公式具体做了什么,深度学习像大脑这样的类比其实是过度简化了我们的大脑具体在做什么,但因为这种形式很简洁,也能让普通人更愿意公开讨论,也方便新闻报道并且吸引大众眼球,但这个类比是非常不准确的。一个神...

2020-03-31 22:50:42 195

原创 B站吴恩达深度学习视频笔记(29)——为什么要使用深度神经网络?

为什么使用深层表示?(Why deep representations?)我们都知道深度神经网络能解决好多问题,其实并不需要很大的神经网络,但是得有深度,得有比较多的隐藏层,这是为什么呢?我们一起来看几个例子来帮助理解,为什么深度神经网络会很好用。首先,深度网络在计算什么?如果你在建一个人脸识别或是人脸检测系统,深度神经网络所做的事就是,当你输入一张脸部的照片,然后你可以把深度神经网络的...

2020-03-31 22:46:54 473

原创 B站吴恩达深度学习视频笔记(28)——深度神经网络说明以及向前传播向后传播实现

深层神经网络(Deep L-layer neural network)目前为止我们已经学习了只有一个单独隐藏层的神经网络的正向传播和反向传播,还有逻辑回归,并且你还学到了向量化,这在随机初始化权重时是很重要。目前所要做的是把这些理念集合起来,就可以执行你自己的深度神经网络。复习下前面21个笔记的内容:逻辑回归,结构如下图左边。一个隐藏层的神经网络,结构下图右边:注意,神经网络的层数是这...

2020-03-31 22:32:49 604

原创 神经网络中的隐藏层

问题神经网络中隐层有确切的含义吗?还是说神经网络的内部结构只能是黑盒,我们无从得知自己训练的每一个隐层节点权重的确切含义呢。一层隐层网络就是一层特征层次,每一个神经元可以类似看作一个特征属性。先解释一层隐层网络就是一层特征层次这一点,有一点拗口。这在传统的神经网络中还不是很明显,在CNN中尤为明显。要明白这一点,首先得理解感受野。感受野是指CNN卷积核在卷积过程中关注的区域,比如第一层5×...

2020-03-31 22:22:49 15002 2

原创 手动实现用L2正则化防止过拟合

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/liangyihuai/article/details/78811664在神经网络中,正则化的作用是防止过拟合,本文将结合一个实例来讲解神经网络中的L2正则化,并手动(不使用框架)实现出来。先来看代码运行结果:增加L2正则化之前...

2020-03-26 20:04:49 1121 1

原创 神经网络的权重初始化为什么要随机

在神经网络中,我们知道输入层的节点个数在就是输入数据个特征(feature)个数,在隐藏层,节点的个数也代表着数据在经过处理之后新”提取“出来的数据特征(feature),一个隐藏层的节点个数越多,意味着这一层所提取的新特征越多。用下面这个图片说明上图中输入层的有两个节点,表示只有两个特征输入神经网络中,经过第一个隐藏层处理之后,变成了四个新特征(因为隐藏层有四个节点),最后再对这四个新特征处...

2020-03-26 19:54:04 1616 1

原创 [比较具体]机器学习中的激活函数

前言之前我发过一个通俗易懂的激活函数讲解,现在对于那一篇讲激活函数的博文,我再做一个补充。这篇博文讲激活函数更加具体,对于如何使用激活函数,以及如何实现激活函数,都有很大的帮助。激活函数使用一个神经网络时,需要决定使用哪种激活函数用隐藏层上,哪种用在输出节点上。到目前为止,之前的笔记中只用过sigmoid激活函数,但是,有时其他的激活函数效果会更好。Sigmoid和Tanh函数在神经网...

2020-03-26 18:29:06 393

原创 B站吴恩达深度学习视频笔记(15-27)——卷积神经网络总结

卷积神经网络(也称作 ConvNets 或 CNN)是神经网络的一种,它在图像识别和分类等领域已被证明非常有效。 卷积神经网络除了为机器人和自动驾驶汽车的视觉助力之外,还可以成功识别人脸,物体和交通标志。如图1所示,卷积神经网络能够识别图片的场景并且提供相关标题(“足球运动员正在踢足球”),图2则是利用卷积神经网络识别日常物品、人类和动物的例子。最近,卷积神经网络在一些自然语言处理任务(如语句...

2020-03-26 18:00:57 1388

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除