- 博客(13)
- 收藏
- 关注
原创 《论文写作》课程学习心得
摘要”是论文重要的内容的总结一般人在查阅文献时往往只读摘要,只有论文摘要清晰明确地说明了论文的重点,才能使读者能仔细阅读论文的详细内容。摘要不需要太长,老师总结的摘要模板只需要10句:1、问题及其重要性,本句可以说明问题所属的领域, 解释最重要的概念, 或者强调问题的重要性.2、已有工作,本句可以描述该问题的流行解决方案.3、已有工作局限性,本句以 However 开头, 需要注意– 指责不要太强烈, 要尊重别人的劳动;– 本句干的事情是挖坑, 要保证自己的方法能把坑填上;
2023-11-02 20:34:50 231 1
原创 支持向量机(svm)
支持向量机(Support Vector Machine, SVM)是一种常用的机器学习算法,用于二分类和多分类问题。SVM的核心思想是寻找一个最优的超平面,使得不同类别的样本之间的间隔最大化。超平面是一个n-1维的子空间,其中n是特征的维度。w⋅xb0其中,w是法向量(垂直于超平面的向量),x是输入样本的特征向量,b是偏置项。为了找到最优的超平面,SVM的目标是最大化样本点到超平面的最小间隔,即最大化间隔。间隔表示样本点到超平面的距离,这个距离可以用函数间隔和几何间隔来表示。γ。
2023-07-20 11:52:01 281 2
原创 论文阅读-Multi-Instance Clustering with Applications to Multi-Instance Prediction
论文针对无监督多实例学习问题,提出了一种多实例聚类算法Bamic。通过将包视为原子数据项,使用一种新的距离度量-平均hausdorff距离来表示包之间的距离。基于Bamic的聚类结果,提出一种新的多实例预测算法Bartmip。
2023-07-19 16:17:52 157
原创 Logistic回归之梯度上升算法
Logistic回归的一般过程收集数据:采用任意方法收集数据。准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。测试算法:一旦训练步骤完成,分类将会很快。使用算法:首先,需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数,就可以对这些数值进行简单的回归计算,判定它们属于哪个类别;
2023-07-12 20:58:09 710 1
原创 使用聚类提升knn的预测速度
knn算法适用于较小的数据集,在处理大数据集时由于KNN算法需要计算测试样本与所有训练样本之间的距离。所以计算复杂度高,预测速度慢。为了缓解这个问题, 可以先把 10,000 条训练数据聚为 50 个簇, 每簇约 200 个样本 (聚类问题), 并获得这些簇中心点. 进行比对的时候, 先确定与哪个簇中心最近, 然后再在这个簇中心找邻居. 这样就可以把 10,000 次对比降为约 50 + 200 次.
2023-06-22 13:03:29 350
原创 多示例学习(Multi-Instance Learning)
在机器学习中, 多示例学习 (MIL) 是由监督式学习演变而来的。相较于输入一系列被单独标注的示例,在多示例学习中,输入的是一系列被标注的“包”,每个“包”都包括许多示例。举一个二元分类的简单的例子,当包中的所有示例都是负例时,这个包会被标注为负包。另一方面,当包中至少含有一个正例时,这个包会被标注为正包。用图像分类举一个例子:给出一个图像,我们想要根据图像的画面内容来确定它的目标类别。比如,当图像同时包括了“沙子”和“水”时,图像的目标类别可能是“海滩”。
2023-06-08 14:12:28 6789 1
原创 决策树算法的实现
通过代码,实现了决策树算法,并使用决策树模型对数据集进行分类。决策树算法易于理解和实现,并且在处理小型数据集时具有较好的性能。在实际应用中,决策树算法常常与集成学习算法相结合,以提高模型的性能。
2023-06-07 00:28:22 135 1
原创 支持向量机算法(SVM)实战
支持向量机(Support Vector Machine,SVM)是一种常用于分类和回归问题的经典机器学习算法。SVM基于间隔最大化的思想来进行分类,即找到一个分类边界,使得不同类别的数据点到该分类边界的距离最大化。这个分类边界被称为“决策边界”或“超平面”。在本文中,使用Python和sklearn库来训练一个SVM分类器,并对鸢尾花数据集进行分类。
2023-06-06 23:49:10 222 1
原创 使用KMeans对批发客户数据进行聚类
使用Python中的pandas、numpy、matplotlib、sklearn和PCA库来完成这个项目。使用KMeans算法来识别可能存在的客户群体,并使用PCA和可视化来展示聚类结果。在这个项目中,数据集是开源的Wholesale customers data.csv数据集。数据集包含了Portuguese的一些批发客户的购买数据。这些数据涵盖了超市,零售商和咖啡馆等不同类型的客户。在这个项目中,使用这个数据集来识别可能存在的客户群体。
2023-05-23 19:52:35 1072 1
原创 使用线性回归模型预测波士顿房价
本篇使用sklearn中自带的波士顿房价数据集,该数据集包含了506个样本和13个特征。通过数据预处理、训练模型、模型评估和结果可视化等步骤来完成。函数将数据集拆分为训练集和测试集。保留20%的数据作为测试集,并将剩余的80%用于训练模型。最后使用matplotlib库将模型的预测结果和真实值可视化。函数绘制一条对角线,以便比较预测结果和真实值之间的差异。在训练模型之前,需要对数据进行预处理。函数来加载数据集,并将特征和标签分别赋值给变量。类创建一个新的线性回归模型,并使用。函数计算均方误差,并使用。
2023-05-23 18:09:55 2018 1
原创 KNN算法实现鸢尾花分类
鸢尾花数据集是机器学习领域中广泛使用的一个数据集,它包含三个品种的鸢尾花,分别是Setosa(山鸢尾)、Versicolor(杂色鸢尾)和Virginica(维吉尼亚鸢尾)。每个样本包含四个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。在本文中,只使用前两个特征进行分类。本次使用KNN算法对鸢尾花数据集进行了分类,实现了自动划分训练集和测试集、训练KNN模型、预测和计算准确率、可视化结果。
2023-05-23 16:51:40 2257 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人