wo太南了-CSDN博客

原创《论文写作》课程学习心得

摘要”是论文重要的内容的总结一般人在查阅文献时往往只读摘要，只有论文摘要清晰明确地说明了论文的重点，才能使读者能仔细阅读论文的详细内容。摘要不需要太长，老师总结的摘要模板只需要10句：1、问题及其重要性，本句可以说明问题所属的领域, 解释最重要的概念, 或者强调问题的重要性.2、已有工作，本句可以描述该问题的流行解决方案.3、已有工作局限性，本句以 However 开头, 需要注意– 指责不要太强烈, 要尊重别人的劳动;– 本句干的事情是挖坑, 要保证自己的方法能把坑填上;

2023-11-02 20:34:50 362 1

原创支持向量机（svm)

支持向量机(Support Vector Machine, SVM)是一种常用的机器学习算法，用于二分类和多分类问题。SVM的核心思想是寻找一个最优的超平面，使得不同类别的样本之间的间隔最大化。超平面是一个n-1维的子空间，其中n是特征的维度。w⋅xb0其中，w是法向量（垂直于超平面的向量），x是输入样本的特征向量，b是偏置项。为了找到最优的超平面，SVM的目标是最大化样本点到超平面的最小间隔，即最大化间隔。间隔表示样本点到超平面的距离，这个距离可以用函数间隔和几何间隔来表示。γ。

2023-07-20 11:52:01 314 2

原创论文阅读-Multi-Instance Clustering with Applications to Multi-Instance Prediction

论文针对无监督多实例学习问题，提出了一种多实例聚类算法Bamic。通过将包视为原子数据项，使用一种新的距离度量-平均hausdorff距离来表示包之间的距离。基于Bamic的聚类结果，提出一种新的多实例预测算法Bartmip。

2023-07-19 16:17:52 184

原创 Logistic回归之梯度上升算法

Logistic回归的一般过程收集数据：采用任意方法收集数据。准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。分析数据：采用任意方法对数据进行分析。训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。测试算法：一旦训练步骤完成，分类将会很快。使用算法：首先，需要输入一些数据，并将其转换成对应的结构化数值；接着，基于训练好的回归系数，就可以对这些数值进行简单的回归计算，判定它们属于哪个类别；

2023-07-12 20:58:09 888 1

原创使用聚类提升knn的预测速度

knn算法适用于较小的数据集，在处理大数据集时由于KNN算法需要计算测试样本与所有训练样本之间的距离。所以计算复杂度高，预测速度慢。为了缓解这个问题, 可以先把 10,000 条训练数据聚为 50 个簇, 每簇约 200 个样本 (聚类问题), 并获得这些簇中心点. 进行比对的时候, 先确定与哪个簇中心最近, 然后再在这个簇中心找邻居. 这样就可以把 10,000 次对比降为约 50 + 200 次.

2023-06-22 13:03:29 393 1

原创机器学习常识学习笔记（分类、回归、聚类和训练、测试、验证）

在机器学习中，常见的任务包括分类、回归和聚类。

2023-06-20 20:08:50 821

原创机器学习常识（不确定性和数据类型）

在训练数据中，可能存在噪声、不完整的信息或未知的变量，导致无法对结果做出确定性的预测。

2023-06-20 13:05:11 565

原创多示例学习（Multi-Instance Learning）

在机器学习中，多示例学习 (MIL) 是由监督式学习演变而来的。相较于输入一系列被单独标注的示例，在多示例学习中，输入的是一系列被标注的“包”，每个“包”都包括许多示例。举一个二元分类的简单的例子，当包中的所有示例都是负例时，这个包会被标注为负包。另一方面，当包中至少含有一个正例时，这个包会被标注为正包。用图像分类举一个例子：给出一个图像，我们想要根据图像的画面内容来确定它的目标类别。比如，当图像同时包括了“沙子”和“水”时，图像的目标类别可能是“海滩”。

2023-06-08 14:12:28 8936 3

原创决策树算法的实现

通过代码，实现了决策树算法，并使用决策树模型对数据集进行分类。决策树算法易于理解和实现，并且在处理小型数据集时具有较好的性能。在实际应用中，决策树算法常常与集成学习算法相结合，以提高模型的性能。

2023-06-07 00:28:22 153 1

原创支持向量机算法（SVM）实战

支持向量机（Support Vector Machine，SVM）是一种常用于分类和回归问题的经典机器学习算法。SVM基于间隔最大化的思想来进行分类，即找到一个分类边界，使得不同类别的数据点到该分类边界的距离最大化。这个分类边界被称为“决策边界”或“超平面”。在本文中，使用Python和sklearn库来训练一个SVM分类器，并对鸢尾花数据集进行分类。

2023-06-06 23:49:10 253 1

原创使用KMeans对批发客户数据进行聚类

使用Python中的pandas、numpy、matplotlib、sklearn和PCA库来完成这个项目。使用KMeans算法来识别可能存在的客户群体，并使用PCA和可视化来展示聚类结果。在这个项目中，数据集是开源的Wholesale customers data.csv数据集。数据集包含了Portuguese的一些批发客户的购买数据。这些数据涵盖了超市，零售商和咖啡馆等不同类型的客户。在这个项目中，使用这个数据集来识别可能存在的客户群体。

2023-05-23 19:52:35 1223 1

原创使用线性回归模型预测波士顿房价

本篇使用sklearn中自带的波士顿房价数据集，该数据集包含了506个样本和13个特征。通过数据预处理、训练模型、模型评估和结果可视化等步骤来完成。函数将数据集拆分为训练集和测试集。保留20%的数据作为测试集，并将剩余的80%用于训练模型。最后使用matplotlib库将模型的预测结果和真实值可视化。函数绘制一条对角线，以便比较预测结果和真实值之间的差异。在训练模型之前，需要对数据进行预处理。函数来加载数据集，并将特征和标签分别赋值给变量。类创建一个新的线性回归模型，并使用。函数计算均方误差，并使用。

2023-05-23 18:09:55 2124 1

原创 KNN算法实现鸢尾花分类

鸢尾花数据集是机器学习领域中广泛使用的一个数据集，它包含三个品种的鸢尾花，分别是Setosa（山鸢尾）、Versicolor（杂色鸢尾）和Virginica（维吉尼亚鸢尾）。每个样本包含四个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。在本文中，只使用前两个特征进行分类。本次使用KNN算法对鸢尾花数据集进行了分类，实现了自动划分训练集和测试集、训练KNN模型、预测和计算准确率、可视化结果。

2023-05-23 16:51:40 2692 1

00000