机器学习总结

最新推荐文章于 2025-06-21 02:04:36 发布

原创最新推荐文章于 2025-06-21 02:04:36 发布 · 586 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

机器学习基础算法教程总结

一、教程要点总结

黑板内容呈现了机器学习（ML）的部分关键概念与算法，涵盖了从基础平台到具体算法及其应用案例。机器学习是人工智能的核心领域，致力于让计算机系统通过数据学习规律并进行预测或决策。

（一）机器学习平台

AI 平台是开展机器学习任务的基础支撑环境，它集成了数据处理、模型训练、算法开发等多种功能。像 TensorFlow、PyTorch 等知名平台，为开发者提供了丰富的工具和接口，方便构建和部署机器学习模型。

（二）回归算法

线性回归：作为有监督学习算法，旨在找出变量间的线性关系，用于预测连续数值型结果。其原理是通过最小化预测值与真实值之间的误差平方和，确定最佳拟合直线（或超平面）的参数。
逻辑回归：虽名为回归，实则用于分类问题的有监督学习算法。借助逻辑函数（如 Sigmoid 函数）将线性回归的输出转换为概率值，以此判断样本所属类别。

（三）KNN（K - 近邻算法）

KNN 属于有监督学习算法，核心思想是基于样本间的距离度量。对于新样本，通过在训练集中找到与其距离最近的 K 个邻居，依据这些邻居的类别来决定新样本的类别。距离度量方式常见有欧氏距离、曼哈顿距离等。

（四）K - means 算法

K - means 是无监督学习算法，主要用于聚类任务。算法通过不断迭代，将数据点划分到 K 个不同的簇中，使簇内数据点相似度高，簇间数据点相似度低。

二、案例展示

（一）线性回归案例 - 波士顿房价预测

设计思路：收集波士顿地区房屋的相关特征数据，如房间数量、房屋面积、房龄、周边设施等作为自变量，房价作为因变量。利用线性回归算法构建模型，探索这些特征与房价之间的线性关联。
代码实现（Python）

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 实例化线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

运行结果：通过计算均方误差（MSE）等指标评估模型性能，例如得到 MSE 值为某一具体数值（如 20.5），可衡量预测房价与真实房价之间的平均误差程度。

（二）逻辑回归案例 - 疾病诊断

设计思路：收集患者的身体指标数据，如年龄、血压、血糖、血脂等作为特征，是否患病作为分类目标。运用逻辑回归算法建立模型，根据患者指标预测患病概率。
代码实现（Python）

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 加载乳腺癌数据集（可类比疾病诊断场景）
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 实例化逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

运行结果：可通过计算准确率、召回率、F1 值等指标评估模型分类效果，比如准确率达到 95% ，表示模型正确分类的样本占总测试样本的比例。

（三）KNN 案例 - 水果分类

设计思路：提取水果的特征，如颜色、形状、大小、重量等。对于新的未知水果样本，计算其与训练集中各水果样本的距离，找出最近的 K 个邻居，依据邻居类别确定新水果类别。
代码实现（Python）

import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris  # 这里用鸢尾花数据集类比水果分类，原理相同
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 实例化KNN模型，设置K值
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测
y_pred = knn.predict(X_test)

运行结果：同样通过准确率等指标评估，若准确率为 90% ，说明模型在测试集上正确分类水果的比例。

（四）K - means 案例 - 客户分群

设计思路：收集客户的消费行为数据，如消费频率、消费金额、购买品类偏好等。通过 K - means 算法将客户划分为不同群体，以便企业制定针对性营销策略。
代码实现（Python）

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs  # 生成模拟数据

# 生成模拟客户数据
X, y = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)

# 实例化K - means模型，设置簇数K
kmeans = KMeans(n_clusters=3)

# 训练模型
kmeans.fit(X)

# 获取聚类标签
labels = kmeans.labels_

运行结果：可通过轮廓系数等指标评估聚类效果，轮廓系数越接近 1，表明聚类效果越好，例如得到轮廓系数为 0.6 ，说明聚类有一定合理性。

三、综合总结

通过对这些机器学习算法和案例的学习，我们了解到不同算法的适用场景和实现方式。在实际应用中，需根据具体问题选择合适算法，同时要重视数据预处理、模型评估与调优等环节，以提升模型性能和预测准确性。机器学习在众多领域有着广泛应用前景，从金融风险预测到图像识别、自然语言处理等，持续学习和实践对于掌握这一强大技术至关重要