自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wx_AHao1004Y的博客

大学生完成学习任务的同时记录学习内容与心得

  • 博客(95)
  • 收藏
  • 关注

原创 《机器学习》数据预处理 删除、替换、填充 案例解析及实现

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。换句话说,数据清洗的目的是删除重复信息纠正存在的错误,并提供数据一致性。在进行数据清洗时,需要按照一定的规则把“脏数据”“洗掉”,以确保数据的准确性和可靠性。

2024-09-08 22:19:26 741

原创 《机器学习》 基于SVD的矩阵分解 推导、案例实现

SVD就是奇异值分解。在机器学习中,SVD是一种常用的矩阵分解方法,用于将一个矩阵分解为三个矩阵的乘积。具体来说,对于一个m×n的实数矩阵A,SVD将其分解为以下形式:A = UΣV^T其中,U是一个m×m的正交矩阵Σ是一个m×n的对角矩阵V^T是一个n×n的正交矩阵。Σ的对角线上的元素称为奇异值,表示原始矩阵A在对应的奇异向量方向上的重要程度。2、SVD的应用。

2024-09-06 21:08:56 1579

原创 《机器学习》PCA数据降维 推导、参数讲解、代码演示及分析

主成分分析是一种经典的无监督降维方法,用于将高维数据集投影到一个较低维的子空间中。PCA的目标是找到一个新的坐标系,其中新的轴被称为“主成分”,这些主成分是原始数据中方差最大的方向。通过选择较少的主成分,可以保留数据集中的大部分信息,并且可以减少特征的数量,从而降低计算复杂度。

2024-09-05 23:36:04 1254 1

原创 《深度学习》OpenCV轮廓检测 模版匹配 解析及实现

模型匹配是一种通过在图像中查找和识别特定形状或物体的方法。模型匹配基于图像中的特征点,并尝试找到与预定义的模型或样本最匹配的图像区域。模型匹配(Model Fitting)是指将机器学习模型与训练数据进行拟合,使模型能够从数据中学习到最佳的参数或规律。模型匹配是机器学习中一个关键的步骤,它决定了模型的准确性和泛化能力。模型匹配的主要目标是通过调整模型的参数或超参数,使得模型能够更好地拟合训练数据,并且在未见过的数据上具有较好的预测能力。

2024-09-05 14:31:07 1665 1

原创 《深度学习》OpenCV轮廓检测 轮廓近似 解析及实现

指对轮廓进行逼近或拟合,得到近似的轮廓。在图像处理中,轮廓表示了图像中物体的边界,因此轮廓近似可以用来描述和识别物体的形状。

2024-09-03 20:54:58 1871

原创 《深度学习》OpenCV 图像轮廓检测、轮廓处理及代码演示

为了识别匹配区域,我们必须通过滑动来将模板图像与源图像进行比较,一次移动一个像素(从左到右,从上到下)。包括Canny边缘检测器、Laplacian边缘检测器等,这些边缘检测器可以通过检测图像中的强度变化来找到物体的边缘。而对象内部中空洞的轮廓为第2级组织结构,空洞中的任何对象的轮又是第 1 级组织结构。,可选的参数 oriented 指定是否计算有向面积,默认为 False,即计算无向面积。输入的轮廓,通常是一个由一系列点组成的 Numpy 数组。计算弧长是通过计算轮廓的所有线段的长度之和来实现的。

2024-09-02 22:50:33 1808

原创 《深度学习》OpenCV 图像边缘检测 算法解析及代码演示

边缘检测是计算机视觉领域中的一项基本任务,它用于检测图像中物体的边缘。边缘是图像中像素值发生突变的地方,通常表示物体的轮廓或者不同区域之间的边界。边缘检测在很多计算机视觉任务中都是必需的,例如目标检测、图像分割和物体识别等。

2024-09-02 20:53:42 1507

原创 《机器学习》【项目】 爬虫爬取数据、数据分词、贝叶斯算法、判断分类 <完整实战详解> (全篇完结)

爬虫是一种自动化程序,用于在互联网上抓取提取和分析网页数据。它通过模拟人类用户的行为,访问网页并提取所需的信息,然后将这些信息保存或使用于其他目的。爬虫可以自动化地访问大量网页,并将提取到的数据用于搜索引擎索引、数据分析、舆情监控等各种应用场景。词向量转换库是一种用于将文本数据中的词语转换为对应的数值向量表示的工具库。它将每个词语映射到一个高维空间中的向量,以捕捉词语之间的语义和上下文关系。

2024-08-31 00:20:27 2071

原创 《机器学习》数据分析之关键词提取、TF-IDF、项目实现 <下>

关键词提取是从给定的文本中提取出最具有代表性和重要性的词语。常见的关键词提取方法包括基于频率统计的方法和基于文本特征的方法。关键词提取是从文本中提取最具有代表性和重要性的词语。TF-IDF是一种常用的关键词提取方法,通过计算词语在文本中的词频和逆文档频率来评估词语的重要性。这些方法在文本数据分析中有广泛的应用,可以帮助我们理解和处理大量的文本数据。

2024-08-30 21:32:35 2048

原创 《机器学习》文本数据分析之关键词提取、TF-IDF、项目实现 <上>

语料库是指用于训练和评估模型的文本数据集。语料库通常包含大量的自然语言文本,例如新闻文章、书籍、网页内容等。语料库中存放的是在语言的实际使用中真实出现过的语言材料。

2024-08-29 23:43:54 1945 1

原创 《机器学习》 DBSCAN算法 原理、参数解析、案例实现

DBSCAN是一种密度聚类算法,用于发现数据集中的有意义的聚类和异常点。与传统的基于距离的聚类算法(如K-means)不同,DBSCAN是基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并在噪声的空间数据集中发现任意形状的聚类DBSCAN算法将样本点分为三类核心对象、边界对象和噪声点。核心对象是指样本点周围密度达到一定阈值的点边界对象是指与核心对象相邻但密度不足以成为核心对象的点噪声点是指既不是核心对象也不是边界对象的点。

2024-08-28 15:01:34 1474

原创 《机器学习》K-means 聚类 原理、参数解析、案例实现

K-means是一种常用的无监督学习算法,用于将数据集中的对象划分为k个不同的组或簇。该算法的目标是最小化每个数据点与所属簇的质心之间的平方欧氏距离之和。

2024-08-28 11:16:39 1929 4

原创 《机器学习》 SVM支持向量机 推导、参数解析、可视化实现

支持向量机(Support Vector Machine,SVM)是一种监督学习算法,用于分类和回归问题。在SVM中,我们将每个样本表示为在高维空间中的一个点,并尝试找到一个超平面来将不同类别的样本分开。超平面的选择是基于使两个类别之间的间隔最大化的原则。支持向量机通过最大化支持向量与超平面之间的最小间隔来实现这一点。使用SVM算法对鸢尾花数据集进行二分类,并绘制出决策边界和支持向量的可视化图。首先,通过pandas库读取名为"iris.csv"的数据集文件,存储在变量data中。

2024-08-27 22:32:28 1569 1

原创 《机器学习》 贝叶斯分类器 原理、参数讲解及代码演示

贝叶斯算法是一种基于贝叶斯定理的统计学习方法。在机器学习中,贝叶斯算法用于推断模型参数或预测未知数据的概率分布。贝叶斯定理是概率论中的一个基本定理,用于描述在已知某些条件下,另一事件发生的概率。贝叶斯算法利用该定理在训练阶段根据样本数据和先验知识估计参数的后验分布,然后在预测阶段根据后验分布计算未知数据的概率分布。贝叶斯算法的基本思想是将概率视为对不确定性的衡量,并通过不断更新先验概率来得到后验概率。

2024-08-26 20:36:16 1282

原创 《深度学习》 OpenCV 计算机视觉入门 (下篇)

中值滤波器是一种非线性滤波器,它使用邻域窗口内的像素的中值来更新中心像素的值。它能够更好地保留图像的边缘信息。均值滤波是一种简单的平滑滤波器,它将每个像素周围的像素均值作为输出像素的值。用当前的像素点周围3x3个像素值的和来代替当前像素值。通过增加图像中边缘的像素值来增加图像的亮度和粗细。通过减小图像中边缘的像素值来减小图像的亮度和粗细。的操作,用于填充小的空洞和连接断开的线条。,用于提取亮的小区域,例如小的光斑。,用于提取暗的小区域,例如小的黑点。的操作,用于去除小的噪点和细线。

2024-08-26 02:30:00 1224 1

原创 《深度学习》 OpenCV 计算机视觉入门 (中篇)

图片的切片是指将图片分割成多个部分,可以按照不同的方式进行切片,如按照固定大小切片、按照特定的行和列切片或者按照特定的区域切片。图片的切片可以用于图像分析、目标检测和图像处理等应用。

2024-08-25 21:54:40 1299 1

原创 《深度学习》OpenCV 计算机视觉入门 (上篇)

OpenCV(Open Source Computer Vision)是一个开放源代码的计算机视觉库,提供了一系列用于处理图像和视频的函数和算法。它可以用于开发各种计算机视觉应用程序,包括人脸检测、目标跟踪、图像分类、图像分割等。OpenCV支持多种编程语言,包括C++、Python和Java,并且可以在多个操作系统上运行,包括Windows、Linux和Mac OS X。OpenCV是一个广泛使用的计算机视觉库,被用于许多领域,如工业自动化、医学影像分析、机器人视觉等。

2024-08-25 17:37:52 1212

原创 《机器学习》决策树 集成学习 随机森林 参数及实例解析

随机森林(Random Forest)是一种集成学习方法,基于决策树构建的模型。随机森林在训练过程中生成多个决策树,并通过投票或平均的方式来进行最终的预测。1)n_estimators :(随机森林独有)随机森林中决策树的个数。在0.20版本中默认是10个决策树;在0.22版本中默认是100个决策树;2)criterion节点分割依据(同决策树)默认为基尼系数,可选entropy,信息增益3)max_depth:决策树最大深度,最大层数(同决策树。

2024-08-24 03:00:00 2003 2

原创 《机器学习》 AUC性能测试、回归树、随机森林

AUC(Area Under Curve)是一种常用的性能指标,用于评估分类模型的性能。在机器学习中,AUC通常是用来评估二分类模型(如逻辑回归、支持向量机等)的预测质量。在机器学习中,性能测量是一项基本任务,因此,当涉及到分类问题时,问哦们可以依靠AUC-ROC曲线,当我们需要检查可视化多类分类问题的性能时,我们使用AUC(曲线下的面积)ROC(接收接收器工作特性)曲线,他是检查任何分类模型性能的最重要评估指标之一。用于解决回归问题的决策树模型。

2024-08-23 22:00:55 1576 2

原创 《机器学习》 决策树剪枝、树模型参数及案例演示

决策树剪枝是指在训练完整的决策树模型后,通过去除一些不必要的分支或叶节点,以减小模型的复杂度,提高泛化能力的一种技术。决策树剪枝方法主要分为预剪枝和后剪枝两种。决策树剪枝的目的是防止决策树模型过拟合训练数据,提高模型的泛化能力。

2024-08-23 20:04:58 1246

原创 《机器学习》决策树 C4.5算法、cart算法

C4.5算法是一种决策树生成算法,它使用信息增益比(gain ratio)来选择最优分裂属性,它是ID3算法的改进版本。C4.5算法的核心思想是选择信息增益比最大的特征作为节点进行划分,以获得最好的分类能力。它使用熵来度量数据集的不确定性,通过计算特征的信息增益来评估特征对分类的贡献程度。信息增益比越大,表示该特征对分类的影响越大。即不考虑标签解结果来只考虑自己本身类别的比例例如:A集合:[1,1,1,2,2,3,3,3,3]

2024-08-22 21:48:43 1313

原创 《机器学习》 决策树 ID3算法

决策树是机器学习中一种常见的分类和回归算法。它基于树状结构的模型,通过对数据进行逐步划分,最终生成一棵决策树来进行预测或分类任务。在决策树中,每个节点代表一个特征或属性,每个分支代表该特征的不同取值,而每个叶节点代表一个类别或者一个预测结果。决策树的构建过程通过选择最优的特征和划分点来进行。这个选择过程通常基于一些衡量指标,比如信息增益、基尼指数等,来选择最能区分不同类别的特征进行划分。递归地对数据集进行划分,直到满足某个停止条件,例如达到最大深度、样本数量不足等。这样就生成了一棵完整的决策树模型。

2024-08-22 03:00:00 1820

原创 《机器学习》 逻辑回归 大批量数据的下采样 <8>

下采样是通过减少多数类样本的数量来达到数据平衡的目的。首先,确定数据集中的多数类样本,即数量较多的类别。然后,从多数类样本中随机选择一部分样本,使其数量与少数类样本相当。最后,将选取得到的样本与少数类样本一起构成新的平衡数据集。下采样的优点是简单快速,减少了计算资源的需求。但缺点是可能丢失一些多数类样本的重要信息,从而导致模型性能下降。

2024-08-21 16:41:13 1031

原创 《机器学习》 逻辑回归 大批量数据的过采样 <9>

大批量数据的过采样可以提高模型对少数类别的预测能力,但也存在一些问题。过采样可能会引入噪声样本,导致模型过于关注少数类别,忽视大多数类别。此外,过采样还可能导致模型在测试集上的性能下降,因为测试集的样本分布可能与过采样后的训练集不一致。

2024-08-21 14:28:33 1232

原创 《机器学习》逻辑回归 参数解读、实际案例 全网最详解答!!!

调整阈值可以通过改变模型的预测结果的判定标准来实现。通常情况下,默认阈值是0.5,大于等于0.5则分类为正类。我们可以根据需求,将阈值调整为更高或更低的值,以达到最佳的模型性能。需要注意的是,调整阈值可能会导致模型的准确率和召回率之间的权衡,因此需要根据具体场景和需求进行权衡和选择。

2024-08-20 22:08:25 1228

原创 《机器学习》逻辑回归 梯度下降、混淆矩阵、随机种子、正则化惩罚 No.6

混淆矩阵是用于评估分类模型在不同类别上的预测准确性的工具。它提供了模型预测结果与真实结果之间的对应关系,帮助我们分析和理解模型的分类性能。假设,要对15个人预测是否患病,使用1表示患病,0表示正常,预测结果如下:此时,预测患病并且预测对了的人数为5个,可以表示为TP,预测错了的为4个,可以表示为FP,而预测正常且预测对了的人数有2个,可以表示为TN,预测错了的为4个,可以表示为FNT 表示 True,表示预测结果为正确的,F 表示 False,表示预测结果为正确的。

2024-08-19 23:29:38 1242

原创 《机器学习》逻辑回归表现形式、公式推导、sigmoid函数、代码实现 No.5

逻辑回归是用于处理因变量为分类变量的回归问题,常见的就是二分类问题,它通过建立一个线性模型,并应用一个非线性函数(称为逻辑函数或sigmoid函数)将线性模型的输出转换为概率值。逻辑回归的目标是根据输入特征预测样本属于正类的概率。逻辑回归的线性模型使用一个权重向量和一个偏置项来表示。给定一个输入特征向量x,线性模型的输出可以表示为,其中β是权重向量,β0是偏置项。然后,通过将y输入逻辑函数(sigmoid函数),将线性模型的输出转换为一个在0到1之间的概率值。。训练逻辑回归模型的目标是通过。

2024-08-19 20:05:23 1157

原创 《机器学习》一元、多元线性回归的实现 No.4

假设事件H0是真的,然后判别小概率事件是否发生,如果发生,就拒绝H0事件,接受H1事件,如果没有发生,就接收H0事件,即小概率事件不发生是极大概率事件,所以上述 假设合理,但是如果小概率事件发生了,此时拒绝了H0就相当于拒绝了真实情况,那么就犯了第一类错误,即拒真,拒真概率就是我们定的α,即显著性水平,一般为0.05,在上述一元线性回归模型中,使用R方来判断数据与模型的拟合程度,那么在多元的线性回归中,就不能使用R方来判断了,需要使用调整R方来判断,如果是多元的,则返回多个β的值,二维数组类型返回。

2024-08-18 19:35:50 1377 5

原创 《机器学习》 线性回归 一元、多元 推导 No.3

线性回归是一种用于预测连续数值的机器学习算法。它基于输入特征与目标变量之间的线性关系建立了一个线性模型。线性回归的目标是找到最佳拟合直线,以最小化预测值与实际值之间的误差。这个线性模型可以用来进行预测和推断。线性回归的模型可以表示为y = w0 + w1x1 + w2x2 + ... + wn*xn,其中w0, w1, w2, ..., wn是要学习的模型参数,代表了每个特征对应的权重。即类似于在一个平面中分布了很多的数据点,现在需要去找一条线来拟合这些数据点,拟合即贴合这些数据。使用多个自变量来。

2024-08-18 15:57:34 1326

原创 《机器学习》KNN算法搭配OpenCV训练模型、识别图片 No.2

KNN算法搭配OpenCV可以用于各种图像处理和计算机视觉任务,通过训练模型和预测图像,可以实现对图像的分类、识别、检测和分割等操作。这种组合可以应用于许多领域,包括人脸识别、目标检测、图像处理、医学图像分析等。

2024-08-16 22:18:54 1596

原创 《机器学习》 KNN算法、数据可视化 No.1

机器学习是一种人工智能(AI)的分支,旨在让计算机通过数据自动学习和改进。机器学习算法被设计用于从数据中提取模式和规律,然后利用这些模式和规律来做出预测或做出决策,而无需明确的程序指令。机器学习的基本原理是利用大量的输入数据进行训练,然后使用这些数据训练出的模型来进行预测和决策。训练过程一般包括以下步骤:数据收集和准备、选择合适的模型、训练模型、评估和优化模型。K近邻算法(K-Nearest Neighbors,简称KNN)是一种常用的监督学习算法,用于解决分类和回归问题。

2024-08-15 22:44:05 1622 5

原创 SQL 数据库设计、事务、视图 <13>

如果一个包含多个步骤的业务操作,被事务管理,那么这些操作要么同时成功,要么同时失败。

2024-08-15 00:30:00 1348

原创 SQL 变量写法、排序问题 <12>

变量使用不保留名次空缺,当出现分数相同情况时,排名是继续增加还是保留同样排名,亦或者是跳过当前排名继续往下排?

2024-08-14 15:28:24 1035

原创 SQL 索引、约束、外键 —/—<11>

索引名称应该是一个有效的标识符,并且在表中的索引名称必须是唯一的。其中,index_name是要创建的索引的名称,table_name是要在其中创建索引的表的名称,column1, column2,...是要在索引中包含的列的名称。其中,table_name是要修改的表的名称,index_name是要添加的索引的名称,column1, column2,...是要在索引中包含的列的名称。MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。

2024-08-14 11:10:23 934

原创 MySQL 复制建表、操作补充、pymysql操作—/—<10>

通过使用游标,可以在数据库中遍历数据,查找、修改或删除指定的数据项。游标可以被认为是一个迭代器,它允许我们在数据库中按顺序访问数据。上述代码中cursor.fetchone()获取一条数据后,后面在使用fetchmany()获取多条数据,此时会接着从后面获取数据,而不是从头开始获取,元组形式打印。其中host为主机ip,user为登入的用户,passwd为用户密码,port为端口,db为数据库。即从student表中取出从行500开始往后数500条数据,将这些数据插入stu表。只复制结构,不复制值。

2024-08-13 22:08:47 769

原创 MySQL字符串函数、数字函数、日期函数、高级函数—/—<9>

例如:你出生的那一天是当年的多少周 ,eg:'2000-07-30',当年的那一周映射到今年是那一天到那一天。支持的转换类型:BINARY、CHAR、DATE、DATETIME、TIME、DECIMAL。上述代码表示列clazz列中的数据如果等于文科六班则返回0,不是的话则比较字符串的字符长度。年龄等于21的标记为1,等于22的标记为2,等于23的标记为3,其余的标记为4。其打印结果如下图所示,即日期、时间、时间戳以日期时间形式展现。生成一列的随机数,都为0到1之间的小数。将当前日期以给定的日期格式输出。

2024-08-12 22:15:29 1359

原创 SQL数据语言分类、往期知识回顾 —/—<8>

SQL(Structured Query Language), 结构化查询语言,它是非过程性语言为加强SQL的语言能力,各厂商增强了过程性语言的特征 如Oracle的PL/SQL过程性处理能力 SQL,Server、Sybase的T-SQLSQL是用来存取关系数据库的语言,具有查询、操纵、定义和控制关系型数据库的四方面功能。

2024-08-11 19:45:19 705 1

原创 DQL数据查询语言(多表处理)—/—<7>

where 条件/ group by分组 / having条件 / select输出 / order by排序 / limit限制条数。

2024-08-11 17:03:54 973 1

原创 DQL 数据查询语言(单表查询)—/—<6>

对班级clazz进行分组,后面使用count(id)即表示求id中行的格式,因为班级进行了分组,相当于一个班级对应所有的数据,每个班级则对应每个班的所有数据,在使用count(id)对分组后的每个组进行求个数,即可得到每个班级的人数。使用where,where后面跟上条件,*号表示所有字段,如果想只查询id或者其他,可在select后面写,但是只能是在当前表中的字段名。对班级和性别进行分组,班级在前性别在后,表示一个班级对应两个性别,分别对每个性别求count数量,然后输出出来。

2024-08-09 15:00:42 930

原创 《MySQL数据库》 数据类型、约束、键的使用—/—<5>

1、PRIMARY KEY使用PRIMARY KEY 是一列或一组列,其值唯一标识表中的每一行。一个表只能有一个PRIMARY KEY。在表创建时,可以指定其中的一列为主键,也可以使用多列来组合作为主键。对于多列组合主键,它们的值的组合必须是唯一的。age INT。

2024-08-09 10:15:34 1244

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除