机器学习课堂笔记

机器学习基本方法

一、模型评估与模型参数选择

1、泛化误差:在某种损失函数度量下,训练集上的平均误差被称为训练误差,测试集上的误差。也是衡量一个模型 泛化能力的重要标准

2、误差:预测输出y^与真实输出𝑦之间的差异

3、泛化误差:在新样本上的误差。 泛化误差越小越好,经验误差不一定越小越好,可能导致过拟合。

4、数据集分为训练集、验证集、测试集

        (1)训练集:是机器学习或统计模型中用来训练模型的一组样本数据。它是从完整的数据集中划分出来的一个子集,用于让算法学习如何根据输入特征预测输出结果

        (2)验证集的主要作用: 评估模型效果,为了调整超参数而服务                                                                                              调整超参数,使得模型在验证集上的效果最好

        (3)测试集:是用于评估机器学习或统计模型性能的一个独立数据集。在模型训练完成后,测试集用来检验模型对新数据的泛化能力,即模型处理它之前未见过的数据的能力。得到评估指标,例如:准确率、精确率、召回率、F1等。

5、数据集的划分

        (1)小规模样本集(几万量级),常用的划分比例:  训练集:验证集:测试集=6:2:2 ,训练集:测试集==8:2、7:3

        (2) 大规模样本集(百万级以上),只要验证集和测试集的数量足够。

注:超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。

6、过拟合:

        (1)定义:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。

        (2)表现:在训练集上表现很好,在测试集上表 现不好。

        (3)原因: 训练数据太少(比如只有几百组), 模型的复杂度太高(比如隐藏层层数设置的过多,神 经元的数量设置的过大) ,数据不纯。

7、欠拟合:

        (1)欠拟合的原因 1. 数据未做归一化处理                                                                                                                        2. 神经网络拟合能力不足                                                                                                                    3. 数据的特征项不够

        (2) 解决方法:  1. 寻找最优的权重初始化方案                                                                                                           2. 增加网络层数、epoch                                                                                                                    3. 使用适当的激活函数、优化器和学习率                                                                                          4. 减少正则化参数                                                                                                                              5. 增加特征

注:epoch是神经网络训练过程中的一个完整迭代周期,表示所有训练样本被模型处理一次的过程。

二、监督学习

1、有监督学习和无监督学习的区别:

有监督数据集需要人工标注,成本较为昂贵,但 是在训练模型时往往能够保障效果。

无监督数据集一般不需要过多人工操作,可以通 过爬虫等方式自动大量获得。

(1)数据标注情况:
           有监督学习:使用已标记的数据进行训练。这意味着在训练过程中,每个输入数据都对应一个已知的输出标签,算法通过这些标注数据来学习模型参数。
           无监督学习:使用无标记的数据进行训练。在这种情况下,没有预先定义的输出标签,算法需要自己发现数据中的模式和结构。

(2)任务目标:
           有监督学习:通常用于解决分类和回归问题分类任务是将输入数据分配到预定义的类别中,而回归任务则是预测连续值的输出
           无监督学习:主要用于解决聚类、降维和关联规则挖掘等任务聚类任务是将相似的数据点聚集在一起形成簇降维任务是减少数据的维度以便于可视化或分析关联规则挖掘则是发现数据项之间的有趣关系

(3)模型评估:
           有监督学习:可以使用准确率、精确率、召回率、F1分数等性能指标来评估模型的性能。这些指标通常基于模型的预测结果与真实标签之间的比较来计算。
           无监督学习:由于没有预定义的输出标签,因此无法直接使用传统的性能指标来评估模型。相反,无监督学习的评估通常基于内部评价指标如轮廓系数)或外部评价指标如准确性、纯度、F1分数),这些指标需要额外的步骤来确定。

(4)应用领域:
           有监督学习:广泛应用于图像识别、语音识别、自然语言处理等领域,其中有大量的标注数据可供训练。
           无监督学习:常用于市场细分、社交网络分析、生物信息学等领域,这些领域的数据通常是未标注的,但包含丰富的潜在信息。

(5)算法示例:
           有监督学习:常见的算法包括逻辑回归、支持向量机、决策树、随机森林、神经网络等。
           无监督学习:常见的算法包括K-means聚类、层次聚类、主成分分析(PCA)、自组织映射(SOM)等。

2、有监督学习的方法:线性回归、逻辑回归、决策树、支持向量机和随机森林等。

3、无监督学习的方法:聚类算法、降维算法、异常检测算法和分割算法等。

4、线性回归的应用场景:

(1)经济预测:在经济学中,线性回归常被用于预测未来趋势,如国内生产总值(GDP)的增长、失业率的变化等。

(2)金融分析:在金融领域,线性回归用于评估股票价格与市场因素之间的关系,如利率、通货膨胀率

(3)市场营销:企业使用线性回归来分析营销活动的效果,如广告支出与销售额之间的关系

(4)生物医学研究:在医学研究中,线性回归用于分析药物剂量与疗效之间的关系,或者环境因素对人体健康的影响。

(5)社会科学研究:社会学家利用线性回归来研究社会现象,如教育水平对收入的影响,或者犯罪率与社会经济发展的关系

(6)环境科学:环境科学家使用线性回归来研究气候变化对生态系统的影响,或者污染物浓度与人类健康之间的关系。

(7)工程领域:在工程领域,线性回归用于预测材料性能,如应力与应变的关系

(8)交通流量分析:城市规划者和交通工程师使用线性回归来分析交通流量模式,预测未来的交通需求,从而优化交通网络设计和交通信号控制。

(9)能源消耗预测:线性回归用于预测能源消耗,如电力需求或天然气消费量

(10)人口统计学:人口统计学家使用线性回归来分析人口增长趋势,预测未来的人口变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值