机器学习基本方法
一、模型评估与模型参数选择
1、泛化误差:在某种损失函数度量下,训练集上的平均误差被称为训练误差,测试集上的误差。也是衡量一个模型 泛化能力的重要标准。
2、误差:预测输出y^与真实输出𝑦之间的差异;
3、泛化误差:在新样本上的误差。 泛化误差越小越好,经验误差不一定越小越好,可能导致过拟合。
4、数据集分为训练集、验证集、测试集。
(1)训练集:是机器学习或统计模型中用来训练模型的一组样本数据。它是从完整的数据集中划分出来的一个子集,用于让算法学习如何根据输入特征预测输出结果。
(2)验证集的主要作用: 评估模型效果,为了调整超参数而服务 调整超参数,使得模型在验证集上的效果最好
(3)测试集:是用于评估机器学习或统计模型性能的一个独立数据集。在模型训练完成后,测试集用来检验模型对新数据的泛化能力,即模型处理它之前未见过的数据的能力。得到评估指标,例如:准确率、精确率、召回率、F1等。
5、数据集的划分
(1)小规模样本集(几万量级),常用的划分比例: 训练集:验证集:测试集=6:2:2 ,训练集:测试集==8:2、7:3
(2) 大规模样本集(百万级以上),只要验证集和测试集的数量足够。
注:超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。
6、过拟合:
(1)定义:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。
(2)表现:在训练集上表现很好,在测试集上表 现不好。
(3)原因: 训练数据太少(比如只有几百组), 模型的复杂度太高(比如隐藏层层数设置的过多,神 经元的数量设置的过大) ,数据不纯。
7、欠拟合:
(1)欠拟合的原因: 1. 数据未做归一化处理 2. 神经网络拟合能力不足 3. 数据的特征项不够
(2) 解决方法: 1. 寻找最优的权重初始化方案 2. 增加网络层数、epoch 3. 使用适当的激活函数、优化器和学习率 4. 减少正则化参数 5. 增加特征
注:epoch是神经网络训练过程中的一个完整迭代周期,表示所有训练样本被模型处理一次的过程。
二、监督学习
1、有监督学习和无监督学习的区别:
有监督数据集需要人工标注,成本较为昂贵,但 是在训练模型时往往能够保障效果。
无监督数据集一般不需要过多人工操作,可以通 过爬虫等方式自动大量获得。
(1)数据标注情况:
有监督学习:使用已标记的数据进行训练。这意味着在训练过程中,每个输入数据都对应一个已知的输出标签,算法通过这些标注数据来学习模型参数。
无监督学习:使用无标记的数据进行训练。在这种情况下,没有预先定义的输出标签,算法需要自己发现数据中的模式和结构。
(2)任务目标:
有监督学习:通常用于解决分类和回归问题。分类任务是将输入数据分配到预定义的类别中,而回归任务则是预测连续值的输出。
无监督学习:主要用于解决聚类、降维和关联规则挖掘等任务。聚类任务是将相似的数据点聚集在一起形成簇,降维任务是减少数据的维度以便于可视化或分析,关联规则挖掘则是发现数据项之间的有趣关系。
(3)模型评估:
有监督学习:可以使用准确率、精确率、召回率、F1分数等性能指标来评估模型的性能。这些指标通常基于模型的预测结果与真实标签之间的比较来计算。
无监督学习:由于没有预定义的输出标签,因此无法直接使用传统的性能指标来评估模型。相反,无监督学习的评估通常基于内部评价指标(如轮廓系数)或外部评价指标(如准确性、纯度、F1分数),这些指标需要额外的步骤来确定。
(4)应用领域:
有监督学习:广泛应用于图像识别、语音识别、自然语言处理等领域,其中有大量的标注数据可供训练。
无监督学习:常用于市场细分、社交网络分析、生物信息学等领域,这些领域的数据通常是未标注的,但包含丰富的潜在信息。
(5)算法示例:
有监督学习:常见的算法包括逻辑回归、支持向量机、决策树、随机森林、神经网络等。
无监督学习:常见的算法包括K-means聚类、层次聚类、主成分分析(PCA)、自组织映射(SOM)等。
2、有监督学习的方法:线性回归、逻辑回归、决策树、支持向量机和随机森林等。
3、无监督学习的方法:聚类算法、降维算法、异常检测算法和分割算法等。
4、线性回归的应用场景:
(1)经济预测:在经济学中,线性回归常被用于预测未来趋势,如国内生产总值(GDP)的增长、失业率的变化等。
(2)金融分析:在金融领域,线性回归用于评估股票价格与市场因素之间的关系,如利率、通货膨胀率等
(3)市场营销:企业使用线性回归来分析营销活动的效果,如广告支出与销售额之间的关系。
(4)生物医学研究:在医学研究中,线性回归用于分析药物剂量与疗效之间的关系,或者环境因素对人体健康的影响。
(5)社会科学研究:社会学家利用线性回归来研究社会现象,如教育水平对收入的影响,或者犯罪率与社会经济发展的关系。
(6)环境科学:环境科学家使用线性回归来研究气候变化对生态系统的影响,或者污染物浓度与人类健康之间的关系。
(7)工程领域:在工程领域,线性回归用于预测材料性能,如应力与应变的关系。
(8)交通流量分析:城市规划者和交通工程师使用线性回归来分析交通流量模式,预测未来的交通需求,从而优化交通网络设计和交通信号控制。
(9)能源消耗预测:线性回归用于预测能源消耗,如电力需求或天然气消费量。
(10)人口统计学:人口统计学家使用线性回归来分析人口增长趋势,预测未来的人口变化。