周志华《机器学习》学习笔记系列一（绪论第一章+第二章）

最新推荐文章于 2022-07-30 00:17:32 发布

筱姿儿

最新推荐文章于 2022-07-30 00:17:32 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/qq_33761144/article/details/78190433

版权

本系列是根据清华大学出版，南京大学周志华教授撰写的《机器学习》教材的编写的学习笔记。现在正处于研一阶段，刚接触机器学习方向，很多知识都只是结合自己浅显的理解，但是我相信我会慢慢的越来越厉害~~~

本篇主要介绍了该教材前两个章节的主要知识点。

1.绪论

机器学习是指在计算机上从数据中产生“模型”的算法，即“学习算法”。在已有的数据集基础上产生“模型”，再对新的数据做出合理的判断。例如：如何让计算机通过大量的挑瓜经验来挑选一个又甜又大的西瓜？

1.1基本术语

假设我们收集了一批西瓜的数据，例如：（色泽=青绿; 根蒂=蜷缩; 敲声=浊响)， (色泽=乌黑; 根蒂=稍蜷; 敲声=沉闷)， (色泽=浅自; 根蒂=硬挺; 敲声=清脆)……每对括号内是一个西瓜的记录，定义：

①所有记录的集合为：数据集。每一条记录称为一个示例（instance）或样本（sample）。

色泽或敲声，称为特征（feature）或属性（attribute），青绿乌黑为相对应的属性值。

②每一条记录（如“色泽”“根蒂”“敲声”）可以在坐标轴上用三维空间表示，每个西瓜都可以在空间中用一个点表示，一个点也是一个向量，即每个西瓜为：一个特征向量（feature vector）。

③一个样本的特征数为：维数（dimensionality），即该西瓜的例子维数为3。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

筱姿儿

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

周志华机器学习西瓜书第一章绪论学习笔记

Sodas的博客

01-17

849

学习西瓜书，并且会持续更新。采纳了很多大佬的笔记，欢迎大家评论区指出交流

周志华《机器学习》自学知识点笔记（第一、二章）

m0_74756644的博客

10-23

590

非形式化定义：将人的“经验”作为计算机的“数据”，让计算机来学习这些经验数据，从而得到一个算法模型，同时在面对新的情况时，计算机能够做出准确有效的判断。形式化定义：假设T为计算机程序希望实现的任务类，P为计算机程序在某任务类T上的性能，E为经验，即历史的数据集。若该计算机程序通过利用经验E在任务T上获得了性能P的改善，则称该程序对E进行了学习。

参与评论您还未登录，请先登录后发表或查看评论

机器学习笔记（一）：绪论、模型评估与选择

weixin_44947339的博客

03-10

408

阅读目录什么是机器学习？基本术语归纳与演绎归纳偏好经验误差与过拟合评估方法性能度量比较检验与偏差方差练习什么是机器学习？利用计算机从历史数据在找出规律，并把这些规律用到对未来不确定场景的决策。 机器学习的典型应用：（1）关联规则：啤酒+纸尿片，购物篮分析（2）聚类：用户细分精准营销（3）朴素贝叶斯：垃圾邮件检测（4）决策树：风险识别（5）ctr预估：互联网广告：...

机器学习 --《机器学习》(周志华)第一、二章

Zhou_Yulong的博客

08-17

575

吃瓜笔记(第一、二章) 《机器学习》（周志华）笔记通过对大量的对象属性进行分析后得到模型的过程称之为训练进行科学推理常用方法归纳从特殊到一般的总结、归纳出一般规律演绎从一般规律不同的模型会有不同的归纳偏好，也会得到不同的推演结论不同的偏好的算法，并非就有一个更好。而是，两者在不同的情况下，都会有自己的优势，更接近事实合取式、析取式、合取范式、析取范式仅由有限个文字构成的析取式称作“简单析取式”：﹁p ∨ ﹁q p ∨ q 仅由有限个文字构成的

机器学习知识点梳理总结

南洲.的博客

07-29

1997

概述网上看到了一个对机器学习知识点的总结，是对诸葛越写的“百面机器学习”这本书的总结，基本为知识点总结，没有详细介绍。作者总结的相当好，我也看过此书，因此记录以学习。原文链接：https://blog.csdn.net/xingoo_/article/details/86143546 ...

《机器学习》（周志华）前五章笔记

weixin_44153656的博客

02-27

761

《机器学习》（周志华）笔记目前问题 2020.2.27——最近在做毕设，题目是复杂场景下基于CTPN技术的文本提取，涉及到了各种卷积神经网络，查阅许多资料后，仍对卷积为什么能提取特征这一问题不是很理解。 Chapter 1 “属性”（attribute）也可称为“特征”（feature），将d个属性作为d个坐标轴，则他们张成一个用于描述一个西瓜的d维空间，由属性张成的空间称为“属性空间”（...

机器学习训练与参数优化的一般过程 (讨论)

minfanphd的博客

07-03

585

摘要: 在实际机器学习应用中, 不但要进行模型的训练, 还要进行输入参数的控制. 本文描述了一般性的过程, 仅供参考.

【读书笔记】周志华 机器学习 第一章 绪论

weixin_43868177的博客

07-30

232

周志华机器学习读书笔记

周志华《机器学习》第二章课后习题

qq_40694323的博客

06-18

5176

周志华《机器学习》第二章课后习题

周志华《机器学习》章节整理

Mr_Cat123的博客

01-26

1805

《机器学习》课后答案见课后答案本部分主要目的在于：使用现有的包（主要是sklearn）实现课程中的问题，同时也是对应课文介绍一些常用包持续更新中… 第二章 模型评估和选择 1）测试集和训练集的划分这部分内容主要参加文献3,。参考文献 1.为什么要用交叉验证 2.sklearn.model_selection 3.sklearn.model_selection.train_test_s...

周志华 机器学习 学习笔记 （1）

极客梦的专栏

07-08

2284

前言：机器学习算法都是基于样本数据独立同分布的假设。（王珏教授）第一部分（1-3章节介绍机器学习的基本知识），第二部分（4-10章介绍一些经典的算法），第三部分（11-16章介绍一些进阶知识），除去前三章之外，各部分相互独立，根据需要自行阅读。绪论在计算机系统中，经验是以数据的形式存在，因此，机器学习所研究的内容是关于在计算机上从数据中产生“模型”的算法。计算机科学是研究关于算法的学问，那么

机器学习参数设置与预训练模型设置

qq_30735079的博客

05-28

3052

使用tensorlayer时,出现了大量相关的参数设置,通用的参数设置如下:task = 'dcgan' flags = tf.app.flags flags.DEFINE_string('task','dcgan','this task name') flags.DEFINE_integer("epoch", 200, "Epoch to train [100]") flags.DEFINE_f...

机器学习第1章 : 目录

何宽的博客

09-19

2108

机器学习超详细教程

机器学习 实践流程思维导图

TangowL

04-16

3692

自己结合学习与实践，从机器学习实践出发，整理了整个流程，以思维导图的形式呈现，也方便自己以后查阅。

周志华《Machine Learning》 学习笔记系列（1）

VAY-长跑

11-19

1万+

机器学习是目前信息技术中最激动人心的方向之一，其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的《机器学习》教材的Learning Notes，书作者是南京大学周志华教授，多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。

周志华机器学习第二章总结及课后答案

物理小乾乾

01-31

3396

2.1 经验误差与过拟合通常我们把分类错误的样本总数的比例称为错误率（error rate），即如果在m个样本中有a个样本分类错误，则错误率E=a/m;相应的，1-a/m称为”精度”(accuracy),更一般的，我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”。过拟合（overfitting）

机器学习笔记(8)——集成学习之Bootstrap aggregating(Bagging)装袋算法

最新发布

01-24

### 关于周志华《机器学习》（西瓜书）第二章的学习笔记 #### 模型评估与选择概述模型评估与选择是机器学习领域的重要组成部分，旨在通过合理的方法评价不同模型的表现并挑选最优者。这一过程不仅涉及如何衡量单个模型的好坏，还包括怎样对比多个候选方案以做出最佳决策。 #### 偏差、方差和噪声的概念解析偏差度量了学习算法的期望预测与实际结果之间的差距，反映了算法自身的拟合精度；方差描述的是相同规模训练集变化引起的学习效果波动情况，体现了数据扰动带来的影响；而噪声则设定了给定任务下所有可能采用的学习方法能达到的最佳预期泛化误差界限，揭示了问题本身固有的复杂性和挑战性[^2]。 #### 性能度量指标——P-R图及其应用为了更直观地展示各类分类器的工作特性，通常会绘制精确率-召回率(Precision-Recall, P-R)曲线来辅助分析。当面对多组实验结果时，可以通过观察这些图形相互间的位置关系来进行优劣评判：如果某条曲线始终位于另一条之上，则表明前者具有更好的整体表现；而对于那些存在交点的情况，则需进一步计算各自下方区域面积大小作为判断依据之一。此外，“平衡点”作为一种特殊的性能测度，在特定条件下也能提供有价值的参考信息[^3]。 #### 偏差-方差分解理论简介该理论为理解学习算法的一般化能力提供了框架性的指导思路，通过对平均测试错误率实施拆分操作，可以深入剖析导致过拟合现象背后的原因所在，并据此探索改进措施的方向。具体而言，总误差由三部分构成——不可约减误差点（即噪声）、平方形式表达出来的偏差项以及线性累加而成的方差成分[^4]。 ```python import numpy as np from sklearn.model_selection import train_test_split from sklearn.metrics import precision_recall_curve, auc def evaluate_model_performance(model, X, y): """ 计算并返回PR曲线下面积(AUC)，用于量化模型的整体性能。参数: model (object): 已经训练好的分类模型实例。 X (array-like of shape (n_samples, n_features)): 测试特征矩阵。 y (array-like of shape (n_samples,)): 对应的真实标签向量。返回: float: PR AUC得分。 """ # 划分训练集/验证集 X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2) # 使用训练集拟合模型 model.fit(X_train, y_train) # 获取验证集中各观测对应的概率估计值 probas_pred = model.predict_proba(X_val)[:, 1] # 绘制PR曲线并求得AUC分数 precisions, recalls, _ = precision_recall_curve(y_val, probas_pred) pr_auc_score = auc(recalls, precisions) return pr_auc_score ```

周志华 《机器学习》学习笔记系列一（绪论第一章+第二章）

1.绪论

1.1基本术语

周志华《机器学习》学习笔记系列一（绪论第一章+第二章）