机器学习
文章平均质量分 69
intelligent
不良使
你无法游向新的地平线,除非你有勇气告别海滩
展开
-
决策树与机器学习实战【代码为主】
【代码】决策树与机器学习实战【代码为主】>**决策树的基本原理是通过对特征进行逐步划分,生成一棵树形结构,以实现对数据的分类或回归。从根节点开始,根据特征的不同取值,将数据划分到不同的子节点中。这个划分过程是基于一些衡量指标(例如信息增益、基尼系数等),目标是在每个节点上选择最佳的划分属性。**>**`决策树的生成过程通常遵循下列步骤:`**>- **特征选择:从给定的特征集合中选择最佳的特征作为当前节点的划分属性。衡量指标常包括信息增益、基尼系数等。**>- **树的构建:根据选择的划分属性,原创 2024-05-27 08:50:15 · 4707 阅读 · 10 评论 -
使用Python实现ID3决策树中特征选择的先后顺序
一、实验目的使用Python实现ID3决策树中特征选择的先后顺序。二、实验原理(1)信息熵熵是对体系中混乱程度的度量。熵越大则该体系越混乱。熵的计算公式如下所示:l(xi)=-log2p(xi)其中,xi表示第i个分类,p(xi)表示选择第i个分类的概率函数,其中 。熵H(x)可表示为:(2)条件熵(3)信息增益因此,决策树分类选特征应选信息增益最大的特征,也就是选择的特征能够使该系统从混乱到有序最快的特征。三、Python包(1)numpy四、实验内容(1)案例描述:通过头发原创 2021-12-13 00:31:34 · 1354 阅读 · 0 评论 -
使用Python实现K-means 算法-------文章中有源码
一、实验目的使用Python实现K-means 算法。二、实验原理(1)(随机)选择K个聚类的初始中心;(2)对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;(3)每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);(4)对K个聚类中心,利用2,3步迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束。三、Python包(1)numpy四、实验内容数据集如下:[3.13257748 4.08653576]原创 2021-12-17 00:02:28 · 2787 阅读 · 0 评论 -
使用Python实现支持向量机 -------文章中有源码
一、实验目的使用Python实现支持向量机。二、Python包(1)sklearn(2)mglearn(3)matplotlib(4)numpy三、实验步骤(1)数据集引入,并使用图像展示(2)使用SVM进行分类(注:用于分类的线性模型只能用一条直线来划分数据点,对这个数据集无法给出较好的结果)(3)现在我们对输入特征进行扩展,比如说添加第二个特征的平方(feature1 ** 2)作为一个新特征。现在我们将每个数据点表示为三维点(feature0, feature1,feature1原创 2021-12-19 00:12:25 · 13952 阅读 · 27 评论 -
使用Python实现贝叶斯分类器-------文章中有源码
一、实验目的使用Python实现贝叶斯分类器。二、实验原理算法原理假设y 的取值有y1,y2……yn.x的特征有x1,x2 ……xm.则朴素贝叶斯及当x={x1i, x2i, ……xmi}时比较y取值概率的大小。即max(p(y|{x1i, x2i, ……xmi}))而p(y|{x1i, x2i, ……xmi}) = p(y{x1i, x2i, ……xmi})/p({x1i, x2i, ……xmi})=p({x1i, x2i, ……xmi}|y)p(y)/p({x1i, x2i, ……xm原创 2021-12-18 11:43:36 · 3106 阅读 · 1 评论 -
试思考当有2个及以上特征时,如何使用线性回归方法来实现拟合
当特征值为两个的时候,则是一个二维平面(横纵坐标分别表示一个特征值)。当出现两个以上的特征值时,特征值越多,坐标的维数越多,那么模型建立起来就比较繁琐,而且多特征有时还会存在多重共线性问题,即相互之间具有关联关系,导致解空间不稳定,模型泛化能力弱,过多特征也会妨碍模型学习规律。因此,当特征值比较多时我们通常可以采用降维的方式减少维数,使模型简单准确,简单来说就是指可以用更少维度的特征替代更高维度的特征,同时保留有用的信息,把高维空间上的多个特征组合成少数几个无关的主成分,同时包含原数据中大部分的变异信息,简原创 2021-12-06 09:47:04 · 1005 阅读 · 0 评论 -
“_____鸢尾花识别_____“-------文章中有源码
实验目的使用Python实现K近邻实验原理(1)计算测试与各个训练数据之间的距离;(2)按照距离的递增关系进行排序;(3)选取距离最小的K个点;(4)确定前K个点所在类别出现的概率;(5)返回前K个点中出现概率最高的类别作为测试数据的预测分类。(1) 鸢尾花识别。import numpy as npimport pandas as pddef getdata(path): data=pd.read_csv(path,encoding='gbk') return np原创 2021-12-11 00:19:53 · 684 阅读 · 0 评论 -
**使用Python实现逻辑回归的算法**-------文章中有源码
实验目的使用Python实现逻辑回归的算法实验原理(1)收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。(4)训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(5)测试算法:一旦训练步骤完成,分类将会很快。(6)使用算法:首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属原创 2021-12-12 01:00:45 · 832 阅读 · 0 评论 -
使用Python实现K近邻-------文章中有源码
实验目的使用Python实现K近邻实验原理(1)计算测试与各个训练数据之间的距离;(2)按照距离的递增关系进行排序;(3)选取距离最小的K个点;(4)确定前K个点所在类别出现的概率;(5)返回前K个点中出现概率最高的类别作为测试数据的预测分类。实验内容(表格区域可拉长)(1)电影类别预测;(2)手写数字识别。1)代码:import numpy as npdef distinguish(): group = np.array([[3, 104], [2, 100], [1原创 2021-12-09 08:19:14 · 387 阅读 · 0 评论 -
使用Python实现线性回归
实验目的使用Python实现线性回归实验原理使用最小二乘法进行线性回归,采用均方误差来表示误差,使用梯度下降法进行最小化误差。实验内容(表格区域可拉长)(1)已知样本输入和标签如x.txt和y.txt所示,试使用Python求出i.) y=2x+2;ii.) y=x+3;iii.)y = 3x-1这三条直线哪个更加接近于样本给出的值。(2)对于上述数据,采用线性回归拟合出该线性方程。(要求:采用直接读取文件的方式,不要复制粘贴。)import numpy as npimport matpl原创 2021-12-07 00:04:01 · 14144 阅读 · 2 评论