第 2 章监督学习【Python机器学习基础教程】

最新推荐文章于 2024-05-10 09:36:12 发布

yangbocsu

最新推荐文章于 2024-05-10 09:36:12 发布

阅读量1.1k

点赞数

分类专栏：《Python机器学习基础教程》文章标签：算法机器学习监督学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_38689263/article/details/121511316

版权

《Python机器学习基础教程》专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python机器学习基础教程

第 2 章　监督学习

第 2 章　监督学习

监督学习是最常用也是最成功的机器学习类型之一；
记住，每当想要根据给定输入预测某个结果，并且还有输入 / 输出对的示例时，都应该使用监督学习。
这些输入 / 输出对构成了训练集，我们利用它来构建机器学习模型。
我们的目标是对从未见过的新数据做出准确预测。
监督学习通常需要人力来构建训练集，但之后的任务本来非常费力甚至无法完成，现在却可以自动完成，通常速度也更快。

2.1　分类与回归

在这里插入图片描述

回归任务的目标是预测一个连续值；
区分分类任务和回归任务有一个简单方法，就是问一个问题：输出是否具有某种连续性。

2.2　泛化、过拟合与欠拟合

在这里插入图片描述

2.3　监督学习算法

2.3.1　一些样本数据集

2.3.2 k 近邻

2.3.3　线性模型

2.3.4　朴素贝叶斯分类器

2.3.5　决策树

2.3.6　决策树集成

2.3.7　核支持向量机

2.3.8　神经网络（深度学习）

2.4　分类器的不确定度估计

2.4.1　决策函数 91

2.4.2　预测概率 94

2.4.3　多分类问题的不确定度 96

2.5　小结与展望 .98

第 3 章　无监督学习与预处理100
3.1　无监督学习的类型 .100
3.2　无监督学习的挑战 .101
3.3　预处理与缩放 .101
3.3.1　不同类型的预处理 102
3.3.2　应用数据变换 102
3.3.3　对训练数据和测试数据进行相同的缩放 104
3.3.4　预处理对监督学习的作用 106
3.4　降维、特征提取与流形学习 .107
3.4.1　主成分分析 107
3.4.2　非负矩阵分解 120
3.4.3　用 t-SNE 进行流形学习 126
3.5　聚类 .130
3.5.1 k 均值聚类 .130
3.5.2　凝聚聚类 140
3.5.3 DBSCAN 143
3.5.4　聚类算法的对比与评估 147
3.5.5　聚类方法小结 159
3.6　小结与展望 .159
第 4 章　数据表示与特征工程161
4.1　分类变量 .161
4.1.1 One-Hot 编码（虚拟变量） .162
4.1.2　数字可以编码分类变量 166
4.2　分箱、离散化、线性模型与树 .168
4.3　交互特征与多项式特征 .171
4.4　单变量非线性变换 .178
4.5　自动化特征选择 .181
4.5.1　单变量统计 181
4.5.2　基于模型的特征选择 183
4.5.3　迭代特征选择 184
4.6　利用专家知识 .185
4.7　小结与展望 .192
第 5 章　模型评估与改进 193
5.1　交叉验证 .194
5.1.1 scikit-learn 中的交叉验证 194
5.1.2　交叉验证的优点 195
5.1.3　分层 k 折交叉验证和其他策略 .196
5.2　网格搜索 .200
5.2.1　简单网格搜索 201
5.2.2　参数过拟合的风险与验证集 202
5.2.3　带交叉验证的网格搜索 203
5.3　评估指标与评分 .213
5.3.1　牢记最终目标 213
5.3.2　二分类指标 214
5.3.3　多分类指标 230
5.3.4　回归指标 232
5.3.5　在模型选择中使用评估指标 232
5.4　小结与展望 .234
第 6 章　算法链与管道 .236
6.1　用预处理进行参数选择 .237
6.2　构建管道 .238
6.3　在网格搜索中使用管道 .239
6.4　通用的管道接口 .242
6.4.1　用 make_pipeline 方便地创建管道 .243
6.4.2　访问步骤属性 244
6.4.3　访问网格搜索管道中的属性 244
6.5　网格搜索预处理步骤与模型参数 .246
6.6　网格搜索选择使用哪个模型 .248
6.7　小结与展望 .249
第 7 章　处理文本数据 .250
7.1　用字符串表示的数据类型 .250
7.2　示例应用：电影评论的情感分析 .252
7.3　将文本数据表示为词袋 .254
7.3.1　将词袋应用于玩具数据集 255
7.3.2　将词袋应用于电影评论 256
7.4　停用词 .259
7.5　用 tf-idf 缩放数据 260
7.6　研究模型系数 .263
7.7　多个单词的词袋（n 元分词） 263
7.8　高级分词、词干提取与词形还原 .267
7.9　主题建模与文档聚类 .270
7.10　小结与展望 .277
第 8 章　全书总结 278
8.1　处理机器学习问题 .278
8.2　从原型到生产 .279
8.3　测试生产系统 .280
8.4　构建你自己的估计器 .280
8.5　下一步怎么走 .281
8.5.1　理论 281
8.5.2　其他机器学习框架和包 281
8.5.3　排序、推荐系统与其他学习类型 282
8.5.4　概率建模、推断与概率编程 282
8.5.5　神经网络 283
8.5.6　推广到更大的数据集 283
8.5.7　磨练你的技术 284
8.6　总结 .284

yangbocsu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第 2 章监督学习【Python机器学习基础教程】

第 2 章　监督学习2.1　分类与回归 .212.2　泛化、过拟合与欠拟合 .222.3　监督学习算法 .242.3.1　一些样本数据集 252.3.2 k 近邻 .282.3.3　线性模型 352.3.4　朴素贝叶斯分类器 532.3.5　决策树 542.3.6　决策树集成 642.3.7　核支持向量机 712.3.8　神经网络（深度学习） 802.4　分类器的不确定度估计 .912.4.1　决策函数 912.4.2　预测概率 942.4.3　多分类问题的不确定度 962.
复制链接

扫一扫