![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 80
alwaysuzybai
"Serena, you're the most beautiful, amazing, alive person I've ever know."
展开
-
机器学习实战|第一周|第1章:机器学习基础
未经过标记处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标记处理后的数据,成为结构化数据才能被算法训练所使用的。训练集:用于训练模型。测试集:用于测试训练后模型的性能。训练集数据用于算法的学习,构建模型。机器学习将训练好的模型应用于新的数据,判断这个训练的模型是否可用,需要有评估模型性能的方法,故将测试集数据用于评估模型的性能。原创 2023-04-19 20:51:08 · 455 阅读 · 1 评论 -
PYTHON-TUTORIAL-MASTER[01]字符串类型|数据结构-串|[02]列表类型|
str( )是python自带函数,是python保留的关键字,定义变量时应该避免使用str作为变量名如果在使用str( )函数之前已经定义过str变量,则会出现TypeError: ‘str’ object is not callable这个报错。原文链接:# 字符串的索引# 查看类型。原创 2023-04-02 15:18:16 · 306 阅读 · 0 评论 -
机器学习实战|第二周|第2章:监督学习|课堂笔记
图灵测试 人工智能 机器学习与人工智能的关系 AI发展史 机器学习分类 极大似然估计 优化算法原创 2023-03-11 21:11:40 · 79 阅读 · 0 评论 -
机器学习|数学建模|数据挖掘|Data Mining|无监督分类算法|聚类分析
什么是聚类分析?聚类分析中的数据类型主要聚类分析方法分类划分方法(Partitioning Methods)分层方法基于密度的方法基于表格的方法基于模型的方法异常分析总结。原创 2023-02-18 13:39:02 · 550 阅读 · 0 评论 -
数据挖掘|主成分分析|模型分析与求解
一、主成分分析二、PCA主成分分析的基本思想与数学模型(一)主成分分析的基本思想(二)主成分分析的数学模型三、主成分分析的几何解释四、主成分分析的应用五、主成分的导出六、主成分分析的计算步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间常常存在一定的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上分析原创 2022-12-16 23:57:46 · 3068 阅读 · 1 评论 -
决策树算法中处理噪音点
如果训练集中存在噪音点,模型在学习的过程总会将噪音与标签的关系也学习进去,这样就会造成模型的过拟合化,也就是模型在训练集的分类效果很好,在未知数据上处理效果不好。一般存在“预剪枝”和“后剪枝”两种策略。预剪枝即为在决策树生成过程中,对当前节点的划分结果进行评价,如果该划分不能带来决策树泛化能力(即处理未见过示例的能力)的提升,则停止划分,将当前结点标记为叶节点;先生成一颗完整的决策树,然后自底向上的对非叶节点进行评价,如果剪掉该枝可以使得泛化性能提升,则将该子树替换为叶子节点。预先剪枝可能会过早的终止决策树原创 2022-12-06 21:28:44 · 655 阅读 · 0 评论 -
跨域推荐(Cross-Domain Recommendation)的最新综述
论文解读系列第十六篇:IJCAI 2021--跨域推荐(Cross-Domain Recommendation)的最新综述 - 知乎目录1.背景介绍(1)内容层级相关性(content-level relevance)(2)用户层级相关性(user-level relevance)(3)产品层级相关性(item-level relevance)2.综述的动机3. 不同的跨域推荐场景以及挑战场景1. 单目标跨域推荐(single-target CDR)场景2. 多领域推荐(Multi-Domain Recom原创 2022-12-05 20:57:29 · 3412 阅读 · 0 评论 -
11月24日课堂学习记录 基于朴素贝叶斯方法的垃圾邮件分类
1、朴素贝叶斯实现垃圾邮件分类的步骤(1)收集数据:提供文本文件。(2)准备数据:将文本文件解析成词条向量。(3)分析数据:检查词条确保解析的正确性。(4)训练算法:计算不同的独立特征的条件概率。(5)测试算法:计算错误率。(6)使用算法:构建一个完整的程序对一组文档进行分类。————————————————版权声明:本文为CSDN博主「Asia-Lee」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.c原创 2022-11-24 14:46:28 · 115 阅读 · 0 评论 -
课程设计-天天象棋作弊软件判别
游戏中的数据是繁杂海量的,因此使用传统方法找出关键数据是难以实施的。系统本身会采集游戏中的一些数据,然后通过数据分析鉴别出产生这些数据的操作是否来自于一个真实的人——这个过程有点类似于我们常用的网页验证码技术,而且毫不意外的是,目前最先进的验证码技术——但是,仅仅这样做是不够的。传统的通过识别软件特征的反作弊程序只会让事态变的越严重——因为如果不具备主动识别性能,反作弊程序将会在竞技游戏中永远落后于作弊工具,作弊者们总会找到各种各样的伪装和优化策略来对抗游戏厂商,而被动地防御带来的资源消耗是不可估量的。原创 2022-11-23 21:06:46 · 4403 阅读 · 0 评论 -
2|数据挖掘|关联规则理论部分|引言
(1)总共有A,B,C,D四个项集,例如{生菜,菠菜,桔子,芹菜,苹果,葡萄}是一个6项集,{薯片,沙司,披萨,蛋糕}是一个4项集;在事务数据库,关系数据库和其他信息库中的项或对象的集合之间,发现频繁模式,关联,相关或因果关系的结构。在数据集D中的可信度为c,其中c表示D中包含A的事务中也包含B的百分率,即可用条件概率。:表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度。D中同时包含A和B的事务数与只包含A的事务数的比值;(2)生菜,菠菜,桔子,芹菜,苹果,葡萄?保留满足最小可信度的规则。原创 2022-11-23 15:15:14 · 698 阅读 · 0 评论 -
MCMC学习笔记-马尔科夫链概述
假某一时刻的状态转移的概率只与它本身前一个状态有关,与前前一个、前前前一个状态都无关,用途:这样做可以大大简化模型的复杂度,因此马尔科夫链在时间序列模型中可以得到广泛的应用,比如循环神经网络RNN、隐式马尔科夫模型HMM、MCMC....精确的数学定义:假设序列状态是,那么在时刻的状态的条件概率仅仅依赖于前一个时刻,即:既然某一时刻状态转移的概率只依赖于它的前一个状态,那么我们只要求出系统任意两个状态之间的转换概率,这个马尔科夫链的模型就确定下来了。原创 2022-11-16 14:31:04 · 702 阅读 · 0 评论 -
机器学习数据挖掘十大经典算法 数学建模常用算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006 (香港召开)年12月评选出了数据挖掘领域的十大经典算法。不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。原创 2022-11-09 08:39:55 · 1291 阅读 · 0 评论 -
常见的六大聚类算法
(1)首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。(2)每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。(3)基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。原创 2022-11-02 16:20:59 · 4014 阅读 · 0 评论 -
通俗易懂理解卷积
再深入思考一下,在算图像卷积的时候,我们是直接在原始图像矩阵中取了(u,v)处的矩阵,为什么要取这个位置的矩阵,本质上其实是为了满足以上的约束。因为我们要算(u,v)处的卷积,而g矩阵是3x3的矩阵,要满足下标跟这个3x3矩阵的和是(u,v),只能是取原始图像中以(u,v)为中心的这个3x3矩阵,即图中的阴影区域的矩阵。的滑动,带来的是点数和的增大。以上计算的是(u,v)处的卷积,延x轴或者y轴滑动,就可以求出图像中各个位置的卷积,其输出结果是处理以后的图像(即经过平滑、边缘提取等各种处理的图像)。转载 2022-10-26 14:29:44 · 917 阅读 · 1 评论 -
14天机器学习DAY1-2|最小二乘法小结
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影。原创 2022-10-25 09:23:14 · 174 阅读 · 0 评论 -
理解卷积&反演规则和对偶规则
我们称为的卷积,其连续的定义为:其离散的定义为:这两个式子有一个共同的特征:这个特征的意义?我们令,那么,就是下图所示直线:如果遍历这些直线,就好比,把毛巾沿着其中一个角卷起来:卷积为什么叫卷积?只看数学符号,卷积是抽象的,不好理解的,但是,我们可以通过现实中的意义,来习惯卷积这种运算。原创 2022-10-24 19:49:40 · 1348 阅读 · 0 评论 -
14天机器学习DAY1-3|交叉验证(Cross Validation)
通过反复的交叉验证,用损失函数来度量得到的模型的好坏,最终我们可以得到一个较好的模型。我们该如何选择方法?如果我们只是对数据做一个初步的模型建立,不是要做深入分析的话,简单交叉验证就可以了。否则就使用S折交叉验证。在样本量很少的时候,使用S折交叉验证的特例:留一交叉验证。转载 2022-10-21 21:51:57 · 792 阅读 · 2 评论 -
30.【课堂笔记】10月20日卷积神经网络CNN
return y某一时刻的输出是之前很多次输入乘以各自的衰减系数之后的叠加而形成某一点的输出,然后再把不同时刻的输出点放在一起,形成一个函数,这就是卷积。轮廓是低频信号细节是高频信号。原创 2022-10-21 14:50:13 · 1239 阅读 · 0 评论 -
14天机器学习DAY1-4|精确率与召回率,Roc曲线与PR曲线
在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)和召回率(recall),Roc曲线与PR曲线这些概念。转载 2022-10-20 14:49:34 · 497 阅读 · 0 评论 -
14天机器学习DAY1-5|线性回归原理小结
得到模型之后,我们需要求出损失函数,一般线性回归中,我们用均方误差作为损失函数,先写出损失函数的代数表示形式,然后再写出矩阵形式。Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征。除了上面两种常见的线性回归正则化,还有一些其他的线性回归正则化算法,区别主要在于正则化项的不同,和损失函数的优化方式不同~线性回归遇到的问题一般是这样的。,它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数。原创 2022-10-19 18:21:14 · 437 阅读 · 0 评论 -
27.机器学习算法的随机数据生成
在学习机器算法的过程中,我经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。numpy和scikit- learn都提供了随机数据生成功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。scikit-learn生成随机数据的API都在datasets类之中,和numpy比起来,可以用来生成适合特定机器学习模型的数据。常用的API有:(1)用make_regression生成回归模型的数据;转载 2022-10-18 15:33:03 · 340 阅读 · 0 评论 -
吴恩达AI机器学习-01神经网络与深度学习week3上-浅层神经网络
目录3.1神经网络概览 3.2神经网络的表现形式3.3计算神经网络的输出3.4多样本向量化 3.5向量化实现的解释3.6激活函数使用上标[1]来表示与这些节点相关的量,也就是所谓的层;之后,我们使用上标[2]来表示与这个节点有关的量,这是神经网络的另一层;上标(i)表示第i个训练样本;在这个神经网络中, 我们要进行多次运算, 反复计算z和a,求得损失函数。上图所示为单隐藏层。第一步计算出z;第二步计算出a;我们看下面的图,对隐藏层的第一个节点进行计算:把第一个节点分成左右两半部分,进行两次运算。接下原创 2022-10-17 18:29:21 · 706 阅读 · 0 评论 -
机器学习-时间序列自回归移动平均模型-翻译(Autoregressive moving average model,ARMA)
在统计和信号处理中,自回归移动平均(ARMA)模型通常应用于时间序列数据,有时被称为博克思-詹金斯(Box-Jenkins)模型,因为通常使用迭代的Box-Jenkins方法来估计它们。给定数据的时间序列,ARMA模型是一种工具,用于理解和预测该序列的未来值。该模型由两个部分组成,自回归(AR)部分和移动平均(MA)部分。该模型通常被称为ARMA(p,q)模型,其中p是自回归部分的阶数,q是移动平均部分的阶数(定义如下)。原创 2022-10-14 21:20:04 · 2017 阅读 · 0 评论 -
吴恩达AI机器学习-01神经网络与深度学习week2中-神经网络基础
吴恩达AI机器学习-01神经网络与深度学习week2中-神经网络基础 print(a)用随机值创建了一个百万维度的数组。python中的广播原创 2022-10-11 10:57:48 · 438 阅读 · 0 评论 -
21.Sigmoid激活函数求导的详细过程
Sigmoid常用作神经元的激活函数,处处有导数,但要注意梯度消失现象🎈Step更倾向于理论而不是实际,不存在导数,意味着基于梯度的优化方法并不可行🎈目录0.前言1.所涉及的公式2.具体求导过程求导 为 复合函数求导:原创 2022-10-10 19:42:06 · 860 阅读 · 2 评论 -
20.神经网络中常见激活函数的总结
在神经网络中,经常要使用到激活函数,对于激活函数的选用,参考指数族分布文章,根据神经网络的用途及其场景,加上对于激活函数的值域的了解,大致可以选定适合对应用途以及场景的激活函数。对于分类器,最终输出的是输入样本在某一类上的可能性(概率),而概率值一般在[0,1]之间,因而最后一层输出的时候,可以选用值域在[0,1]之间的激活函数,比如sigmoid函数。目录传统的激活函数选择的建议0.前言1.sigmoid函数2.tanh激活函数3.Relu激活函数4.Leak Relu激活函数。原创 2022-10-09 11:52:37 · 2724 阅读 · 0 评论 -
机器学习应补充哪些数学基础?
在这个课程里,你将会学到一个和两个参数的回归分析、线性回归分析、一般最小二乘法、最小二乘法的范例、基础以及残差。在你开始下一步学习之前,我需要澄清一点,你需要有线性代数基础、多元微积分基础、了解统计和回归模型、熟悉基于论证的数学和 R 语言的操作知识。课程中,你会学到如何使用线式方程(equation of lines)来创造计算机字体、图论如何在愤怒的小鸟中扮演重要角色、线性系统如何为一个运动团队的表现建模以及谷歌如何使用概率和模拟来保持在搜索引擎上的领先优势。你将在课程里学到 R 语言编程的基础知识;转载 2022-10-04 16:58:32 · 153 阅读 · 0 评论 -
16.python实现线性单元和梯度下降-10月4日编程作业-Relu函数
算法的一个优势,就在于它能够自动学习到应该提取什么特征,从而使算法不再那么依赖人类,而这也是神经网络之所以吸引人的一个方面。[绩点,学生工作,科研成绩,实践表现] = [4.5,4.7,4.6,4.8] 最终得分为:4.57。[绩点,学生工作,科研成绩,实践表现] = [4.5,4.0,4.6,4.7] 最终得分为:4.49。[绩点,学生工作,科研成绩,实践表现] = [5.0,5.0,5.0,5.0] 最终得分为:4.99。包括学业绩点、学生工作、科研成绩和实践表现,每个特征参与评定的比重不同,即参数。原创 2022-10-04 11:38:49 · 967 阅读 · 0 评论 -
13.线性单元和梯度下降 用python求解LMS算法 聚合theta值(出现nan值,已解决)
supervised learning➡️neural networks 神经网络改变了监督学习!原创 2022-10-03 19:53:14 · 926 阅读 · 1 评论 -
吴恩达AI机器学习-01神经网络与深度学习week2上-神经网络基础
函数求导链式规则推导部分和梯度下降代码思路部分重点理解💻。原创 2022-10-03 20:48:07 · 459 阅读 · 0 评论 -
吴恩达AI机器学习-01神经网络与深度学习week1-深度学习概述
黑色红色:the digitization of a societ➡️create data➡️collect data横轴:amount of labeled data 注意是labeled data(x,y);样本数量通常用m表示,当m非常大时,神经网络算法才会显著领先其他算法;处理小型数据集时,NN优势并不明显.eg1:单层神经网络🏠房子尺寸x 房价yeg2:多层神经网络🏠房子尺寸x1 房间数量x2 邮编x3(地理位置) x4财富水平房价y。原创 2022-10-03 13:58:54 · 563 阅读 · 0 评论 -
12.BP神经网络算法权重weights求解公式推导
BP全链接神经网络算法权重weights求解公式推导原创 2022-09-26 12:47:31 · 1311 阅读 · 0 评论 -
机器学习算法|LMS(Least Mean Square)最小均方算法公式推导
LMS algorithm 最小均方算法 梯度下降算法原创 2022-09-19 20:01:41 · 680 阅读 · 1 评论 -
机器学习-相关概念+线性回归+4.线性代数
1.2.1线性函数的概念严格来说,只有过原点的最简单的直线f(x)=kx才被称为一元线性函数。满足“线性”的条件:(1)可加性:·和的函数=函数的和;(2)比例性:·比例的函数=函数的比例;(3)线性的全部意义:·线性组合的函数=函数的线性组合;1.2.1线性函数概念的推广矩阵实际上就是高等线性函数(这里指的是线性方程组)的系数。1.2.3多元线性函数的几何意义(1)坐标系由二维扩展到三维(2)两个平面加起来n元的线性函数。原创 2022-09-04 17:54:29 · 396 阅读 · 0 评论 -
11.BP神经网络算法 概念理解 数学建模 机器学习
优势:一个仅有一个隐藏层的浅层神经网络就能拟合任何一个函数,但是它需要很多很多个神经元;而深层神经网络用很少的神经元就能拟合同样的函数,即深层网络表达能力更强。想要拟合一个函数,要么使用是一个浅而宽的网络,要么使用深而窄的网络,显然后者更节省资源。深层网络也有劣势,就是它不太容易训练,需要更大量的数据和更深层的技巧!为输入,代表权重,代表阈值(阈值又叫临界值,是指一个效应能够产生的最低值或最高值)。代表输出。还有偏置b和激活函数f(x)没有画出。原创 2022-09-24 11:08:19 · 990 阅读 · 1 评论