统计学习方法-读书笔记-1.概论

这本书的主要内容是关于监督学习,统计学习方法三要素:模型+策略+算法;监督学习方法的应用:分类、标注、回归

1.1统计学习

学习”:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。

统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

1.2监督学习(有标记,预测)

(1)概念:输入空间、特征空间与输出空间

(2)变量的不同类型,对于预测任务不同名称:回归(连续变量)、分类(离散变量)、标注(变量序列)

(3)监督学习分为“学习+预测”两个过程,模型分为概率模型(P(y|x))和非概率模型(y=f(x))

1.3统计学习三要素模型+策略+算法

(1)模型:概率模型(P(y|x))和非概率模型(y=f(x))

(2)策略(在假设空间中选取最优模型)

——损失函数:0-1损失函数,平方损失函数、绝对损失函数、对数损失函数

——风险函数:损失函数的期望

——经验风险:平均损失

结构风险最小化(正则化):在结构风险基础上加上表示模型复杂度的正则化项(罚项),正则化系数用以权衡经验风险和模型复杂度,使得两者均最小。

(3)算法(最优化问题):模型的具体计算方法,求解最优模型。

1.4模型评估与模型选择

(1)对于模型的训练误差和测试误差,测试误差反映对未知数据的预测泛化能力。

(2)过拟合:学习时选择的模型所包含的参数过多,以至于这一模型对于已知数据拟合的很好,但对未知数据预测很差,泛化能力不高。这样,在学习的时候就要防止过拟合,进行最优模型选择,选择复杂度适当的模型,已达到测试误差小,泛化能力强。两种常用的模型选择方法:“正则化”和“交叉验证”。

1.5正则化与交叉验证

(1)正则化是一种模型选择的典型方法,是结构风险最小化策略的实现,是在经验风险上加上一个正则化项(罚项)正则化的作用是选择经验风险和模型复杂度同时较小的模型,它符合奥卡姆剃刀原理。

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。例如,正则化项可以是模型参数向量的范数。

L1正则化-Lasso

L2正则化-岭回归(ridge)

(2)交叉验证:将数据集划分为训练集、测试集(验证集)

——简单交叉验证:训练集+测试集

——K折交叉验证:(k-1)训练集+(1)测试集,求出平均测试误差。

——留一交叉验证:(N-1)训练集+(1)测试集,样本总数为N,往往在数据缺乏的时候使用。

1.6泛化能力:由方法学习到的模型对未知数据的预测能力。

1.7生成模型与判别模型

监督学习方法可分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

(1)生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,该模型表示了给定输入X产生输出Y的生成关系,有朴素贝叶斯法和隐马尔科夫模型。

特点:可以还原出联合概率分布P(X,Y),而判别方法不能;生成方法的学习收敛速度更快;存在隐变量可使用该方法。

(2)判别模型:由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。该模型关心的是对给定的输入X,应该预测什么样的输出Y。有K近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法和条件随机场。

特点:直接进行预测,学习的准确率更高,简化学习问题。

1.8-1.10分类、标注、回归问题

(1)分类:分类器,评价分类器性能的指标:精确率(P)、召回率(R)和F1指标。例如文本分类(新闻分类)

(2)标注:分类问题的推广,输入是一个观测序列,输出是一个标记序列或状态序列(隐马尔科夫模型和条件随机场),例如信息抽取、自然语言处理。

(3)回归:相当于函数拟合,选择一条函数曲线使其很好地拟合已知数据,并且很好地预测未知数据。例如商务领域的市场趋势预测、产品质量管理、投资风险分析、股价预测等。




深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值