自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 《速通机器学习》

读者朋友们大家好,本书从传统的机器学习,如线性回归、逻辑回归、朴素贝叶斯、支持向量机、集成学习,到前沿的深度学习和神经网络,如DNN、CNN、BERT、ResNet等,对人工智能技术进行零基础讲解,内容涵盖数学原理、公式推导、图表展示、企业应用案例。

2023-11-09 17:47:38 162

原创 Attention模型和Transformer模型

14.1.1节讲解了Attention模型在Seq2Seq机器翻译中的应用。实际上,Attention作为一个近些年异常火爆的模型,有着广泛的应用。本节将介绍Attention模型的通用形式。我们通过类比了解一下Attention模型。家长带孩子去玩具店买玩具(一共有 n 个玩具),孩子自己挑玩具,用模型预测家长是否会在玩具店消费(只预测是否购买,不关心具体购买的玩具是什么)。每个玩具都有两类特征:1-形状,颜色,功能等;2-价格,安全性,益智性等。第一类特征主要用来吸引孩子;

2023-11-09 17:44:34 180

原创 循环神经网络和LSTM模型

c(t) 的值会非常大,导致 h(t)=Tanh(c(t)) 所对应的Tanh函数达到饱和,而Tanh函数达到饱和的结果是 h(t) 几乎不再变化,其后果是后面的输入 x(t) 几乎不会对 h(t) 产生影响。在 t=1 时刻,输入的信息对 t=10 时刻的分类是非常重要的,但因为它们距离较远(从 h(1) 到 h(10),x(1) 的信息在 h(10) 中已经被中间的多个 W 和 x(2)~x(9) 稀释),所以 x(1) 很难在 h(10) 中得到体现(长距离依赖问题)。

2023-10-28 17:04:12 110

原创 卷积神经网络

每个人的笔迹都是不同的,尽管不同的人写出的文字的形状未必完美和整齐划一,但从整体看并不影响其分类。以输入 4×4 的图像(这里只是为了讲解方便,实际的图像尺寸要比这个尺寸大得多)为例,使用 3×3 卷积核,stride=1,激活函数为ReLU,输出图像的尺寸为 2×2,卷积运算过程如图11-5所示。例如,对图像进行 2×2 的池化操作,输出图像中的每个像素都对应于输入图像的 2×2 的感受野,如果此时对输出图像进行 3×3 卷积,那么卷积后每个像素所对应的原始图像的视野为 6×6,如图11-15所示。

2023-10-20 16:01:53 105

原创 自然语言处理

我喜欢吃饭”对应于4个词,w_1=“我”,w_2=“喜欢”,w_3=“吃”,w_4=“饭”,概率记为 P(w_1 w_2 w_3 w_4),即顺序排列的一系列词所对应的联合概率密度分布。在使用神经网络预测概率时,共同的词 w_1 所使用的one-hot编码及其所连接的输出层参数是相同的,因此,可以认为 P(w_3 |w_1 w_2) 和 P(w_3 |w_1 w_4) 共享了一部分参数,而这将使参数的数量减少。然而,在Word2vec中,词是最小的语义单元,词的内部形态信息被忽略了。

2023-10-19 15:41:01 34

原创 神经网络调优

在深度学习出现之前,经典机器学习方法的工作重心都在上。好的特征往往能让特征提取事半功倍。不过,特征提取依赖人的业务经验和对场景的理解,并且特征不具备通用性,往往是“特事特办”。深度神经网络开创了机器学习的新时代,在很多领域给出了相对通用的解决方案,其应用可以说是遍地开花。图像领域的CNN,NLP领域的Word2vec、LSTM,包括近几年出现的Attention、Transformer等技术,都在各自擅长的领域大放异彩。深度学习出现后,工程师们不用再“处心积虑”地去提取特征以追求一点点的进步了。

2023-10-16 15:16:15 46

原创 深度神经网络

单个训练样本 {x_((i) ),y_((i))} 在神经网络上的输出为 y_((i))^'=[y_((i),1)^',⋯,y_((i),C)^' ]^T,它是一个 C×1 维的向量;不同于分类任务将数据标注为 {x_((i) ),y_((i) )},在度量学习中,x_((i) ) 为模型的输入,y_((i)) 为预测值,标注数据由样本对给出,即。类别的概率之和为1。在深度学习中,越靠前(l 的值越小)的层,〖∂Loss〗_((i) )/(∂W^((l)) ) 的累乘项就越多,越容易发生梯度爆炸(消失)。

2023-09-24 13:28:41 53 1

原创 经典分类模型

针对缺失的特征,专门训练模型。例如,针对特征 x=〖[x_1,x_2,x_3]〗^T,穷举可能缺失的特征:x1=〖[x_1,x_2]〗^T,x2=〖[x_1,x_3]〗^T,x3=〖[x_2,x_3]〗^T,x4=[x_1],x5=[x_2],x6=[x_3],x7=〖[x_1,x_2,x_3]〗^T(共训练7个模型,各种特征缺失的情况都有对应的模型)。但是,其中有一个隐含的要求,即输入特征 x=〖[x_1,x_2,⋯,x_m]〗^T 是完备的,也就是说,特征 x_1~x_m 是已知的。

2023-09-15 22:14:50 50

原创 机器学习入门推荐书籍

学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。同时,书中蕴含了作者对机器学习理论及各类模型的内在关系的理解与思考,并通过细致的对比和说明,透彻地讲述了不同概念之间的传承与发展,使读者可以快速领略机器学习的精髓并掌握一定的自学能力。本书从传统的机器学习,如线性回归、逻辑回归、朴素贝叶斯、支持向量机、集成学习,到前沿的深度学习和神经网络,如DNN、CNN、BERT、ResNet等,对人工智能技术进行零基础讲解,内容涵盖数学原理、公式推导、图表展示、企业应用案例。

2023-09-03 14:08:37 185

原创 机器学习应该如何入门?

在从事机器学习算法研究3年之际,和大家分享一下我在ML方向上的入门方法!无论是做算法还是开发、产品,认识自己是第一步。了解自己的特质、能力、兴趣爱好,再去做方向选择。

2023-06-19 14:26:34 305

原创 人工智能机器学习入门与进阶学习线路推荐

同学们大家好,我是卢菁;自入行机器学习多年来,有不少同学问过我有没有一份完整的;说过不少次,但是一直没有如何完整的写出来;恰逢今日有空,便编辑了一下,这是我整理教学的机器学习入门与进阶学习线路,包括基础部分与多个项目讲解,项目内容基本都是给各大企业培训或是我工作跑来;基本满足国内百分之八十AI岗位需求;

2023-06-05 17:59:45 823

原创 《速通深度学习数学基础》

在进行数据分析和机器学习的时候,我们往往需要知道一个因素的变化对结果造成的影响。例如:车费=3元×里程+起步价那么里程增加1千米,那么车费就会增加3元,因此里程对车费造成的影响就是 Δ=3,Δ 表示里程(自变量)对车费(因变量)的影响程度。我们可以把上面的分析用标准的数学语言进行描述。对应的函数为我们首先让 x 有一个微小的变动 Δx,它是一个无限接近于0的极小变量。Δy 则表示当 x 变为 x+Δx 时,y 对应的变化情况,即。

2023-06-05 17:58:49 415

原创 《速通深度学习数学基础》

内容简介:本书以线性代数、微积分、概率论为逻辑主线,讲解了与深度学习有关的大部分数学内容。本书以理论结合实际的方式讲解,使数学知识不再是冰冷的公式堆砌,而变成一个个真实的案例,同时对案例背后的原理进行理论上的升华,希望达到一通百通的效果。读者通过阅读本书,不仅能够提升阅读学术论文中的数学公式的能力,还能加深对深度学习本身的理解。本书面向入门级读者,摒弃复杂的数学推导和证明,重视逻辑推理和简单的表达,特别适合数学基础不足的读者阅读。

2023-05-28 15:43:12 837 1

原创 《速通深度学习数学基础》第6章 概率在深度学习中的应用

目录6.1 概率分布之间的距离6.2 最大似然估计6.3 logit和softmax6.3.1 二分类的logit6.3.2 多分类的softmax6.4 语言模型6.5 概率悖论6.5.1 辛普森悖论6.5.2 基本比率谬误6.5.3 罗杰斯现象6.5.4 伯克森悖论6.6 统计学基础6.6.1 卡方分布和学生分布6.6.2 假设检验6.6.3 AB测试6.7 各类hash变换6.7.1 特征hash6.7.2 MD56.7.3 特征空间的投影6.7.4 simhash6.7.5 minhash6.8 分

2023-04-12 15:00:38 372

原创 《速通机器学习》-第十章 自然语言处理

在自然语言处理中,语言模型是一个非常重要的模型

2023-04-11 17:41:14 167

原创 《速通深度学习数学基础》第5章 概率的基本概念

概率是一门古老的学科,如果溯源,一般认为其来源于赌博,但是随后其发展出了一套体系理论并拓展到科学和工程的方方面面。特别是在机器学习领域中,概率和统计学可以说奠定了一整套理论基础。概率和统计学本身涉及的知识面非常之广,本书仅围绕机器学习方面的知识展开讨论。概率是用来度量事情发生的可能性的,通常用 P 表示。概率是续型变量,值域一般定义为 [0,1]。如果一个事情必然发生,那么该事件被称为必然事件。

2023-04-11 17:39:54 217

原创 《速通深度学习数学基础》第4章 微积分在深度学习中的应用

目录4.1 梯度下降法4.1.1 梯度下降法在深度学习中的应用4.1.2 泰勒公式和梯度下降法4.1.3 牛顿迭代法4.2 梯度下降法的缺点4.3 矩阵求导术4.3.1 标量对向量和矩阵求导4.3.2 向量对向量求导4.3.3 链式法则4.4 常见激活函数及其导数4.5 常见损失函数及其导数4.5.1 分类和回归4.5.2 哈夫曼树和负采样4.5.3 度量学习4.6 积分和求和4.6.1 积分和不定积分4.6.2 多重积分4

2023-04-10 15:00:30 216

原创 《速通机器学习》-第九章 神经网络调优

在深度学习出现之前,经典机器学习方法的工作重心都在上。好的特征往往能让特征提取事半功倍。不过,特征提取依赖人的业务经验和对场景的理解,并且特征不具备通用性,往往是“特事特办”。深度神经网络开创了机器学习的新时代,在很多领域给出了相对通用的解决方案,其应用可以说是遍地开花。图像领域的CNN,NLP领域的Word2vec、LSTM,包括近几年出现的Attention、Transformer等技术,都在各自擅长的领域大放异彩。深度学习出现后,工程师们不用再“处心积虑”地去提取特征以追求一点点的进步了。

2023-01-09 13:06:58 506

原创 《速通机器学习》-第八章 深度神经网络

单个训练样本 {x_((i) ),y_((i))} 在神经网络上的输出为 y_((i))^'=[y_((i),1)^',⋯,y_((i),C)^' ]^T,它是一个 C×1 维的向量;不同于分类任务将数据标注为 {x_((i) ),y_((i) )},在度量学习中,x_((i) ) 为模型的输入,y_((i)) 为预测值,标注数据由样本对给出,即。类别的概率之和为1。在深度学习中,越靠前(l 的值越小)的层,〖∂Loss〗_((i) )/(∂W^((l)) ) 的累乘项就越多,越容易发生梯度爆炸(消失)。

2022-12-16 14:33:52 266

原创 《速通机器学习》-第七章 集成学习

在现实生活中,我们每天都会面对各种抉择,例如根据商品的特征和价格决定是否购买。不同于逻辑回归把所有因素加权求和然后通过Sigmoid函数转换成概率进行决策,我们会依次判断各个特征是否满足预设条件,得到最终的决策结果。例如,在购物时,我们会依次判断价格、品牌、口碑等是否满足要求,从而决定是否购买。决策的流程,如图7-1所示。图7-1可以看到,决策过程组成了一棵树,这棵树就称为决策树。在决策树中,非叶子节点选择一个特征进行决策,这个特征称为决策点,叶子节点则表示最终的决策结果。在上例中,我们只是根据经验主观建立

2022-12-07 13:20:59 309

原创 《速通机器学习》-第六章 无监督学习

本书前面提到的各种模型,无论是回归还是分类,在训练阶段都有一个共同的前提条件,即需要有标注的训练样本。标注数据会告诉模型,“对这条数据,输入 x 后,我想要结果 y”。模型会根据要求,使用梯度下降法或其他求解方式,不断调整自身参数,使输出 y^' 尽可能接近标注 y。这类学习统称为有监督学习。标注 y 就是监督信号(也称为教师信号),用于告诉模型数据 x 所对应的正确类别 y。在企业中,标注数据的来源一般是人工标注,以及收集的用户反馈信息。不过,现实很“残忍”。

2022-12-02 15:42:35 462

原创 《速通机器学习》-第五章 经典分类模型

通过前面的学习我们知道,逻辑回归其实就是在平面上通过画直线进行二分类,其学习过程就是通过梯度下降法在训练数据中寻找分类线。当训练数据线性可分时,能够正确进行分类的分类线有无数条,不同的分类线对应于不同的 w 和 w_0 及不同的 Loss,如图5-1所示。图5-1在图5-1中,直线 L_1 和 L_2 都可以把训练数据完美地分成两类,但哪条更好呢?Loss 最小的直线一定是最好的吗?我们可以从几何的角度审视这个问题。直线 L_2 与一些数据点的距离相对较近,如果测试集中的数据点发生轻微的移动(特征轻微变化)

2022-11-30 19:00:26 416

原创 《速通机器学习》-第四章 因子分解模型

输入为 x=〖[x_1,x_2]〗^T,x_1=0 表示女性,x_1=1 表示男性,x_2=0 表示女鞋,x_2=1 表示男鞋,输出 y 表示用户的购买概率,特征分布如图4-1所示。同理,在计算 x_1,2 的系数 w_1,3 时,可以解耦成 v_1 和 v_3,v_3 和特征 x_3 有关。w_0+w^T x 对应于逻辑回归,∑_(h=1)^k▒(1/2 [(∑_(i=1)^m▒〖v_(i,h) x_i 〗)^2-∑_(i=1)^m▒(v_(i,h) x_i )^2 ]) 对应于新增的特征。

2022-11-29 15:11:12 437

原创 《速通机器学习》-第三章 逻辑回归

线性回归是指特征 x 通过模型运算得到预测值 y^'。在理论上,y^' 的取值范围是 (-∞,+∞),即 y^' 可以是任何值,例如销量、价格、负债等。在回归任务中,有一类特殊场景值得注意,就是预测概率。概率可用于解决分类问题。在这类场景中,模型的输出是输入样本属于某个类别的概率。例如,输入的是用户消费习惯和商品特征等信息,输出的概率 p 表示用户是否会购买商品。再如,输入的是一幅图片,输出的概率 p 表示该图片是否包含人脸。

2022-11-28 16:58:01 762

原创 《速通机器学习》-第2章 线性回归

在企业中,技术人员会将商品的价格、品牌等作为输入来预测商品的销量,甚至通过上市公司的财报、行业信息等来预测公司股票价格的变化。它们的共同点是通过输入来预测输出。在机器学习中,这类业务有一个专门的名字——回归(Regression)。回归是指通过大量已知数据发现输入 x 和输出 y 的内在关系,并对新的输入进行预测。发现内在关系后,就可以通过它来预测新的输入 x 所对应的输出 y^'。在本章中,我们用 y 表示真实的输出,用 y^' 表示预测的输出。在使用回归前,需要假设 y^' 和 x 之间的关系类型。

2022-11-26 13:59:55 738 2

原创 《速通机器学习》

机器学习是人工智能领域最活跃的分支之一,作为多学科交叉的重要工具,为计算机领域解决实际学习问题提供了理论支撑与应用算法。近年来,机器学习在互联网应用中崭露头角,计算机视觉、自然语言处理、推荐系统、搜索系统等积累了大量的数据和丰富的场景,促进了包括机器学习在内的诸学科的发展与繁荣。与此同时,机器学习的快速发展,也让我们切实领略了人工智能给人类生活带来各种改变的潜力。

2022-11-25 15:30:59 641 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除