深度学习专栏
文章平均质量分 83
专栏内容涵盖了深度学习的各个方面,从基础到高级内容,无论您是初学者还是有一定经验的从业者,都将从中受益匪浅。我们将介绍深度学习的最新趋势、最佳实践、以及实际应用案例,以帮助您应对不断发展的领域需求。这个专栏将使您掌握深度学习的技能,为在数据科学、人工智能和机器学习领域取得成功打下坚实的基础。
北航程序员小陈
北京航空航天大学|计算机科学与技术|硕士 人工智能AI教学|python项目实战分享|java项目|C++|C#|微信小程序| 学习项目指导|sci|中文核心|会议 技术指导|远程部署|调试安装|在线教学
一位对编程充满热情的技术达人,专注于各大编程语言的应用和实战经验。从 Python 到 Java、JavaScript 到 C++ 等众多领域。无论是数据科学、机器学习、Web开发,还是嵌入式系统、移动应用开发,我都乐此不疲。
博客不仅仅是一个技术记录本,更是一个分享知识和经验的平台。通过详实的教程、实战经验分享,以及丰富多样的项目源码,我希望能够激发更多人对编程的兴趣,助力大家更好地成长。
展开
-
大模型生命周期评估
环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同(森林种植活动产生单一种植)更高效的模型架构、训练程序、硬件(但要注意反弹效应)在论文报告排放量。原创 2024-07-01 11:45:00 · 96 阅读 · 0 评论 -
大模型之Adaptation
探测作为一种强大的分析工具,通过冻结语言模型表示编码器(上图中灰色部分)和优化特定任务的探针(上图中预测头,蓝色部分)来工作。这些模型可以是线性的或浅前馈预测头,提供了一种灵活的方法来理解和解释深度学习模型的内部工作机制。固定长度表示的策略也进一步促进了这一目的,提供了灵活而有效的解决方案。冻结(灰色):无需任何操作。优化(蓝色,每个任务有所不同):语言模型的所有参数,外加一个新的预测头。微调是一种强大的工具,可以使预先训练的语言模型更好地符合人类的期望和需求。原创 2024-07-01 10:15:00 · 68 阅读 · 0 评论 -
大模型新的模型架构
设BBB是一个batch中的token数量(在所有序列中);通常在百万数量级。设EEE是专家数目;通常在千数量级。设x1xBx1xB为一个batch中的token。Switch Transformer(谷歌)使用了top-1专家。BASE(Facebook)为每个token分配1名专家,但进行了联合优化。这两个模型的性能都无法与GPT-3可比。原创 2024-06-30 16:00:00 · 12 阅读 · 0 评论 -
大模型分布式训练
近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。原创 2024-06-30 09:00:00 · 15 阅读 · 0 评论 -
大模型模型训练
上一章中,我们讨论了大语言模型(例如,Transformer)的模型结构。在本章中,我们将讨论如何训练大语言模型。本章分成目标函数和优化算法两部分。原创 2024-06-29 17:45:00 · 8 阅读 · 0 评论 -
大模型模型架构
语言模型的一开始就可以被看做是一个黑箱,当前大规模语言模型的能力在于给定一个基于自身需求的prompt就可以生成符合需求的结果。prompt⇝completion从数学的角度考虑就对训练数据 (traing data:x1xLtrainingData⇒px1...xL在学习内容中中,我们将彻底揭开面纱,讨论大型语言模型是如何构建的。今天的内容将着重讨论两个主题,分别是分词和模型架构:分词:即如何将一个字符串拆分成多个标记。原创 2024-06-29 10:15:00 · 8 阅读 · 0 评论 -
大模型法律
在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!原创 2024-06-28 14:00:00 · 8 阅读 · 0 评论 -
大模型理论基础--大模型的数据
到目前为止,我们已经讨论了大型语言模型的行为(能力和损害)。现在,我们要剥开洋葱的第一层,开始讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据,因此这就是我们开始的地方。附录:通常在机器学习中,训练数据和测试(评估)数据是相似的,或者至少是同一类型的。但对于大型语言模型来说,训练数据就是“原始文本”。原创 2024-06-27 16:07:02 · 9 阅读 · 0 评论 -
大模型的有害性
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要将这些伤害视为文本的属性,而是需要从更广泛的社会语境中考虑。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。原创 2024-06-27 16:00:00 · 13 阅读 · 0 评论 -
大模型理论基础三
在这次内容中,我们将开始探讨大型语言模型的有害性(危害)。:我们知道“能力越大责任越大,对于当前开创性的大模型来说,我们需要了解这些模型的能力和危害之间的密切关系。大模型的能力所展示的潜力将导致这些模型被广泛的采用,但是与此同时造成它们的危害。由于AI的发展是近几年发展的产物,因此对于危害的研究与预防依旧是一个很新的事情。因此回顾历史,从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解,首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法,有助于对当前AI领域有所借鉴。原创 2024-06-27 09:30:00 · 101 阅读 · 0 评论 -
不确定性、先验概率_后验概率、概率密度、贝叶斯法则、朴素贝叶斯_、最大似然估计
PA∣B。原创 2024-02-18 17:15:00 · 184 阅读 · 5 评论 -
博弈、极小极大值、α-β剪枝、截断测试
在扩展完第一棵子树后,根结点能确定他能得到的收益最小为3,此时第二层为了选择一个最小值,但第一层会选择第二层所有值中的最大值,所以在d图中扩展了得到2已经小于3,所以剩下的 不用扩展,在e中,因为先扩展了14,大于3为了不让第一层得到14所以继续扩展,最后也变成2,这样第一层最多得到3。剪枝可以用来忽略一些分支。原创 2024-02-18 09:15:00 · 104 阅读 · 1 评论 -
贝叶斯网络、概率图模型、全局语义、因果链、朴素贝叶斯模型、枚举推理、变量消元
图模型是概率分布的图表表示。它是概率论和图论的结合。也被称为概率图模型(Probabilistic Graphical Models)。它们增强了分析,而不是使用纯代数。原创 2024-02-17 21:50:32 · 168 阅读 · 1 评论 -
CSP约束满足问题、回溯搜索、最少剩余值MRV、度启发式、最少约束值启发式
回溯搜索是CSP的基本无信息算法。可以解决n≈25的n皇后问题。具有单变量赋值的CSP的深度优先搜索称为回溯搜索。解决:应该按照什么顺序尝试它的值。解决:下一步应该分配哪个变量。解决:下一步应该分配哪个变量。原创 2024-02-17 21:49:53 · 120 阅读 · 8 评论 -
机器学习、深度学习、自然语言处理基础知识总结
机器学习、深度学习、自然语言处理基础知识总结。目前主要参考李航老师的《统计学习方法》一书,也有一些内容例如等是书中未提及的。由于github的markdown解析器不支持latex,因此笔记部分需要在本地使用Typora才能正常浏览,也可以直接访问下面给出的博客链接。Document文件夹下为笔记,Code文件夹下为代码,Data文件夹下为某些代码所使用的数据集,Image文件夹下为笔记部分所用到的图片。原创 2024-01-23 09:15:00 · 39 阅读 · 0 评论 -
最大熵原理
(上式中最后一个约束条件与《统计学习方法》中给出的不同,参考https://zhuanlan.zhihu.com/p/83765331,我认为书中给出的有误,而应该像上式这样才能得出最后的结果。用特征函数f(x,y)描述输入x和输出y之间的某一个事实,特征函数是一个二值函数,当x与y满足某一事实时取1,否则取0。最大熵原理是概率模型学习的一个准则,其认为学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。就是最大熵模型,w是最大熵模型的参数向量,每一维度为对应特征函数的权重。原创 2024-01-23 12:00:00 · 82 阅读 · 0 评论 -
LDA是什么
隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。基于主题之间的相似度:计算主题向量之间的余弦距离,KL距离等,如果存在过于相似的主题,则降低主题数目。箭头表示两变量间的条件依赖性。原创 2024-01-22 12:45:00 · 58 阅读 · 0 评论 -
隐马尔可夫模型理解
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列(状态序列),再由各个状态生成一个观测而产生观测随机序列(观测序列)。假设仅能获取到观测数据O,不能获取到状态序列I,此时可以应用EM算法对隐马尔可夫模型进行参数估计。根据训练数据是包括观测序列和对应的状态序列还是只有观测序列,可以分别由监督学习和非监督学习实现。近似算法的优点是计算简单,缺点是不能保证预测的状态概率整体式最有可能的状态序列。,其中T为序列长度。为观测集合,N和M分别为状态和观测的数量。原创 2024-01-20 17:30:00 · 30 阅读 · 0 评论 -
一文搞懂--什么是线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-22 14:30:00 · 29 阅读 · 0 评论 -
特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-21 18:00:00 · 44 阅读 · 0 评论 -
特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-21 12:00:00 · 38 阅读 · 0 评论 -
一文弄懂什么是-随机森林
由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为。bagging方法得到的各子模型是有一定相关性的,属于上面两个极端状况的中间态,因此可以一定程度降低variance。两个随机的引入(样本与属性选择的随机),使得模型不容易过拟合,并且模型抗噪声能力很强。原创 2024-01-20 16:00:00 · 50 阅读 · 0 评论 -
神经网络学习
对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。若参数W初始化得很大,那么多个大于1的数相乘会使得结果很大,使得接近输入层的所有层的梯度非常大,权重和偏差参数的更新量非常大,无法被正确更新。原创 2024-01-19 14:00:00 · 34 阅读 · 0 评论 -
深度学习中的优化方法
Adagrad虽然减少了学习率的手动调节,但二阶动量的不断累积会使得学习率越来越小,可能会使训练过程提前结束,即使后续有数据也无法学到必要的知识。Adagrad对历史梯度一视同仁,简单的把所有梯度的平方加起来来衡量参数的更新频率,这中导致学习率单调递减的方式过于激进,RMSProp对其进行了改进。Adagrad,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多。优点:由于每次迭代只使用了一个样本计算梯度,训练速度快,包含一定随机性,从期望来看,每次计算的梯度基本是正确的导数的。原创 2024-01-19 11:00:00 · 36 阅读 · 0 评论 -
机器学习-线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-18 16:00:00 · 32 阅读 · 0 评论 -
特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-18 11:00:00 · 28 阅读 · 0 评论 -
特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-16 14:08:31 · 61 阅读 · 0 评论 -
工智能基础知识总结--隐马尔可夫模型
隐马尔可夫模型的定义隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列(状态序列),再由各个状态生成一个观测而产生观测随机序列(观测序列)。隐马尔可夫模型由初始概率分布、状态转移概率分布、观测概率分布确定。设Q={q1,q2,...,qN}Q=\{q_1,q_2,...,q_N\}Q={q1,q2,...,qN}为状态集合,V={v1,v2,..,vM}V=\{v_1,v_2,..,v_M\}V={v1,v2,..,vM}为观测集合,N和M分别为状态和观原创 2024-01-17 05:30:00 · 61 阅读 · 0 评论 -
工智能基础知识总结--线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-17 09:00:00 · 43 阅读 · 0 评论 -
工智能基础知识总结--特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-15 16:00:00 · 56 阅读 · 0 评论 -
工智能基础知识总结--特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-16 14:30:00 · 39 阅读 · 0 评论 -
工智能基础知识总结--随机森林
由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为。bagging方法得到的各子模型是有一定相关性的,属于上面两个极端状况的中间态,因此可以一定程度降低variance。两个随机的引入(样本与属性选择的随机),使得模型不容易过拟合,并且模型抗噪声能力很强。原创 2024-01-16 10:30:00 · 39 阅读 · 0 评论 -
工智能基础知识总结--神经网络
对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。若参数W初始化得很大,那么多个大于1的数相乘会使得结果很大,使得接近输入层的所有层的梯度非常大,权重和偏差参数的更新量非常大,无法被正确更新。原创 2024-01-15 17:15:00 · 44 阅读 · 0 评论 -
工智能基础知识总结--深度学习中的优化方法
Adagrad虽然减少了学习率的手动调节,但二阶动量的不断累积会使得学习率越来越小,可能会使训练过程提前结束,即使后续有数据也无法学到必要的知识。Adagrad对历史梯度一视同仁,简单的把所有梯度的平方加起来来衡量参数的更新频率,这中导致学习率单调递减的方式过于激进,RMSProp对其进行了改进。Adagrad,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多。优点:由于每次迭代只使用了一个样本计算梯度,训练速度快,包含一定随机性,从期望来看,每次计算的梯度基本是正确的导数的。原创 2024-01-14 16:00:00 · 80 阅读 · 0 评论 -
工智能基础知识总结--朴素贝叶斯
伯努利朴素贝叶斯和多项式朴素贝叶斯应用在文本分类时区别较大,详情可以参考:https://zhuanlan.zhihu.com/p/96007193。适用于连续变量,其假定各个特征在各个类别下服从正态分布,通过训练集估计正态分布的参数。适用于离散变量,其假设各个特征在各个类别下是服从多项式分布的,每个特征值不能是负数。适用于离散变量,假设各变量取值只有0、1两种,因此首先要对特征值进行二值化处理。由于朴素贝叶斯学习到了联合概率分布,因此为生成模型。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。原创 2024-01-15 09:00:00 · 64 阅读 · 0 评论 -
工智能基础知识总结--逻辑回归
可以看出,输出y=1的对数几率是输入x的线性组合,即逻辑回归实际上是在对对数几率进行回归,这也是逻辑回归名称的由来。当输入为0时输出为0.5,当输入分别趋向正无穷和负无穷时,输出分别趋向1和0。逻辑回归一般指二项逻辑回归,是一种用于二分类的判别式模型。所以链式求导也很容易。所以链式求导也很容易。原创 2024-01-14 09:00:00 · 96 阅读 · 0 评论 -
工智能基础知识总结--决策树
按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。预剪枝:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用某一种指标来判断划分是否能提高增益,如验证集的数据的准确性、信息增益是否大于最低标准、样本个数是否小于最低标准等,如果是,就把结点标记为叶结点并退出进一步划分,否则就继续递归生成结点。原创 2024-01-13 10:45:00 · 57 阅读 · 0 评论 -
工智能基础知识总结--聚类算法
我们可以观察聚类误差是否随聚类类别数量的增加而单调变化,如果数据是基本随机的,即不存在非随机簇结构,那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著,并且也找不到一个合适 的K对应数据的真实簇数。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。在无监督的情况下,我们可以通过考察簇的分离情况和簇的紧 凑情况来评估聚类的效果。DBSCAN的聚类定义很简单:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别,或者说一个簇。原创 2024-01-12 18:45:00 · 53 阅读 · 0 评论 -
工智能基础知识总结--感知机
由于感知机的前提是原数据集线性可分,这意味着必须存在一个正确的超平面。那么,不管几何距离还是函数距离,损失函数最后都要等于0,因此感知机并不关心点到超平面之间的间隔,关心的是误分类的点的个数。感知机算法的对偶形式主要适用于训练数据的特征维度远大于训练样本数的场景,此时原始形式每次更新都需要计算w和x的内积,但对偶形式可以将所有样本间的内积预先计算好以矩阵的形式存储(Gram矩阵),这样会节省训练耗时。其中,w叫做权重,是分类超平面的法向量;的线性组合的形式,通过求解其系数而求得w和b。原创 2024-01-12 13:15:00 · 40 阅读 · 0 评论 -
工智能基础知识总结--词嵌入之Word2Vec
因为Word2Vec的最终目的是得到词向量矩阵U,因此训练任务并非仅仅只能是根据输入词预测输出词的概率,可以将任务修改为预测某一个词是否是输入词的上下文词的概率。层次Softmax存在的问题是人为增强了词与词之间的耦合性。一般为小于1的正数起到放缩作用,使得频率小的词被采样的几率得到提升,频率大的词被采样的几率被降低,这样能增加低频词被采样到的机会,可以显著提高低频词的词向量的准确度。词的分布式表示的核心思想是:一个词是由这个词的周边词汇一起来构成精确的语义信息,因此可以用一个词附近的其他词来表示该词。原创 2024-01-11 15:00:00 · 489 阅读 · 0 评论