机器学习实战笔记
文章平均质量分 93
_Taylor
这个作者很懒,什么都没留下…
展开
-
机器学习实战 第十三章 PCA
假设我们有一个二维数据集,其中包含5个样本点(n=5)。数据集可以表示为一个2x5的矩阵,如下所示降维后的数据集是一个1维数组,这就是经过PCA降维后的结果。由于PCA是基于数据的协方差矩阵计算的,每次运行结果可能会略有不同,但整体的结果都比较接近。其中在PCA中,特征向量是协方差矩阵的特征向量,而协方差矩阵描述了数据在各个特征上的方差和相关性。每个特征向量都对应着一个特征值,特征值表示了数据在该特征向量方向上的方差大小。原创 2023-07-27 21:29:14 · 125 阅读 · 1 评论 -
机器学习实战第十章 K-均值聚类
经过本章的学习,加深了对k-均值的了解,一个典型的聚类算法,主思想是将样本数据划分为K个簇,使得每个样本点都属于离其最近的簇中心,也就是质点,K-均值算法的优点包括简单、易于实现和计算效率高。然而,该算法的结果受到初始簇中心的选择和数据分布的影响,可能会陷入局部最优解。因此,在使用K-均值算法时,通常需要进行多次运行并选择最优的结果。原创 2023-07-20 20:56:57 · 940 阅读 · 0 评论 -
机器学习实战 第七章
函数首先初始化弱学习器列表(weakClassArr)、样本数量(m)、权重向量(D),以及累计类别估计值(aggClassEst),再迭代训练指定次数(numIt),在当前样本权重(D)下,使用"buildStump"函数构建最佳弱学习器(bestStump)。在这种情况下,TPR 和 FPR 的比例是相等的,分类器无法区分正例和负例。再迭代训练弱学习器,即使用当前样本权重下的训练数据,训练一个弱学习器(例如决策树),之后使用弱学习器对训练数据进行预测,并计算预测结果与实际标签不一致的样本权重之和。原创 2023-07-18 19:36:36 · 147 阅读 · 1 评论 -
机器学习实战 第六章
实现效果如上,自上而下分别是自定义参数k=1.8、1.3和0.1时的结果,0.1中每个支持向量的影响度少因此需要较多数量, 易产生过拟合情况,而比较1.8和1.3的情况可以知道1.3的参数更加合适,支持向量数量少且错误率也不差。用于计算核函数转换后的数据。函数根据给定的核函数类型,计算输入数据矩阵X与样本点A之间的核函数值,并返回结果。到分隔面的距离来确定我们要寻找数据集的最佳分隔直线,SVM通过寻找最优的分隔超平面,并利用支持向量来确定分隔超平面的位置和方向,从而实现对线性可分数据的最佳分隔。原创 2023-07-15 17:32:18 · 146 阅读 · 1 评论 -
机器学习实战 第五章
首先要理解最优化的含义,求不同地点间的最短距离、最少工作量得到最大效率,这种就是最优化,而Logistic回归就是一个最优化算法,它对数据进行分类,其主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。其中回归一词是指用一条线对数据点进行拟合的过程,通过最佳拟合达到“最优化”下面举一个Logistic回归的一个二分类例子:邮件长度是否包含特定关键词是否包含多个感叹号来自陌生发件人邮件是否包含大量大写字母并且有标签垃圾邮件为1、非垃圾邮件为0。原创 2023-07-12 20:54:08 · 98 阅读 · 1 评论 -
机器学习实战 第四章
朴素贝叶斯是一种基于贝叶斯定理的概率图模型,适合用于分类和预测问题,和之前几章具体明确属于哪种类型的算法不同,朴素贝叶斯是通过概率来选择更大可能类别的分类器,下面用一个简单的例子来说明:假设有一个垃圾邮件过滤器,使用朴素贝叶斯分类器来判断一封邮件是否是垃圾邮件。我们的训练数据中有两个类别:垃圾邮件(1)和非垃圾邮件(0)。“免费”,“优惠”,“限时”,标签:1“您好”,“最近好吗”,“周末过得怎么样”,标签:0“立刻购买”,“促销”,“折扣”,标签:1。原创 2023-07-08 22:18:22 · 138 阅读 · 0 评论 -
机器学习实战 第三章
决策树,就像它的名字一样,利用决策的方法形成的一棵树用来处理数据,它的工作原理与“二十个问题”的小游戏类似,都是通过层层分级缩小范围最后给出答案。用判断邮件类别举个例子:判断一封邮件类别时,首先看它的发送邮件域名地址,若是’‘myEmployer.com’'则判断为无聊时阅读的邮件;否则进行下一层判断,根据是否包含"曲棍球"这个词来判断是需要及时处理的朋友邮件还是垃圾邮件以上图像中,长方形的代表判断模块,椭圆形代表终止模块,左右箭头称作分支,这样就是一个决策树的基本框架。原创 2023-07-06 20:00:31 · 113 阅读 · 1 评论 -
机器学习实战 第二章
K-近邻算法的基本原理数据点1: (0.5, 0.8, 0)数据点2: (1.0, 0.7, 0)数据点3: (0.5, 0.6, 1)数据点4: (1.0, 0.9, 1)同时,我们有一个新的数据点(0.7, 0.8)首先,对于每个数据点,计算新数据点与它们的特征之间的距离,选取距离最小的那个数据点;然后,我们选择距离最小的K个数据点,即距离新数据点最近的K个数据点。对于上面的例子,距离新数据点最近的3个数据点分别是数据点1, 数据点4, 和数据点2;原创 2023-06-30 22:58:56 · 95 阅读 · 0 评论 -
机器学习实战 第一章
机器学习(Machine Learning,ML)是人工智能(Artificial Intelligence,AI)的一个分支,它是一种能够让计算机系统从数据中学习并改进的技术。简单来说,机器学习就是让计算机自动从数据中发现规律和模式,从而进行预测、分类、回归等任务,而无需进行明确的编程监督学习(Supervised Learning):这是最常见的机器学习类型。在监督学习中,我们提供数据和对应的标签,也就是说,我们告诉机器我们想要它预测的结果是什么。原创 2023-06-27 22:13:50 · 132 阅读 · 1 评论