一,监督学习
1.1 概念
监督学习(Supervised Learning)是机器学习的一种主要范式,它涉及使用带有标签的训练数据来训练模型,以便模型能够学习输入数据和输出标签之间的关系。在监督学习中,我们的目标是让模型从已知的训练数据中推断出一个映射,然后将该映射应用于新的未标记数据,以进行预测或分类。
1.2 任务类型
1.2.1 分类:在分类任务中,模型的目标是将输入数据映射到一个离散的类别或标签。例如,垃圾邮件分类、图像识别、疾病诊断等都是分类问题的示例。
举例:乳腺癌检测:学习算法必须决定如何通过这些数据来拟合边界线(良性肿瘤和恶性肿瘤的分界线)
1.2.2 回归:在回归任务中,模型的目标是预测一个连续的数值输出(预测数字)。例如,房价预测、股票价格预测等都是回归问题的示例。
举例:房价预测
1.3笔记
监督学习最常见的是指学习x到y或者输入到输出的映射算法。
就是说你需要提供一些数据,这些数据输入输出有正确答案,不断学习,最终学习算法学会输入而不需要输出标签并且给出合理准确的预测。
例如:语音识别,机器翻译,广告推荐
1.4其它相关概念
1.4.1模型选择:在监督学习中,可以选择不同类型的模型来执行任务,包括线性回归、决策树、支持向量机、神经网络等。选择合适的模型通常取决于问题的性质和数据的特征。
1.4.2评估模型:为了评估监督学习模型的性能,通常会将其应用于测试数据集,并使用不同的性能指标,如准确率、精确度、召回率、均方误差等来衡量模型的效果。
1.4.3泛化:监督学习的关键目标是使模型具有良好的泛化能力,即在未见过的数据上也能够进行准确的预测。这可以通过合理划分训练集和测试集、特征工程、正则化等方法来实现。
二,无监督学习
2.1概念
无监督学习(Unsupervised Learning)是机器学习的一种主要范式,与监督学习不同,它不依赖于带有标签的训练数据来进行建模和预测。无监督学习的目标是从未标记的数据中发现数据中的结构、模式、关系或规律。
2.2特点
无标签数据:在无监督学习中,训练数据没有与之相关联的目标标签。这意味着模型需要自行发现数据中的模式,而不是依赖于预定义的标签来指导学习过程。
2.3任务
聚类(Clustering):聚类任务涉及将数据分成不同的组或簇,以便每个组内的数据点相似度较高,而不同组之间的数据点差异较大。K均值聚类和层次聚类是常见的聚类算法。
降维(Dimensionality Reduction):降维任务旨在减少数据的维度,同时保留尽可能多的信息。主成分分析(PCA)和t-分布邻域嵌入(t-SNE)是常用的降维技术。
异常检测:识别数据集中的异常或不正常的数据点,这些数据点与正常模式明显不同。异常也被称为离群值(Outliers)或异常值,它们可能表示数据中的错误、异常情况、欺诈、故障或其他不寻常的事件。
关联规则挖掘(Association Rule Mining):关联规则挖掘用于识别数据集中项之间的关联性,例如购物篮分析,以确定哪些商品经常一起购买。
模式发现:无监督学习的目标是发现数据中的内在结构、模式和规律,而不是为了进行分类或预测。这使其在数据探索和特征工程中有用。
2.4应用领域
无监督学习在各种领域中有广泛的应用,包括推荐系统、图像分割、社交网络分析、自然语言处理、异常检测、数据压缩等。
2.5评估
与监督学习不同,无监督学习的模型评估通常更为复杂,因为没有标签可以直接用于评估性能。评估通常涉及使用内部指标(如轮廓系数、方差解释比)或外部指标(如聚类的稳定性、降维后的分类性能)来衡量模型的质量。