读书笔记
文章平均质量分 67
包括 剑指offer、西瓜书、百面机器学习 等的读书笔记
二三TP
这个作者很懒,什么都没留下…
展开
-
机器学习研讨班记录
第一章AUC的计算方式2.5 偏差方差定义和计算需要看一下原创 2021-05-20 21:12:06 · 69 阅读 · 0 评论 -
机器学习 学习笔记 -(总览)
目录决策树ID3C4.5CART(classfication and regression tree, 分类与回归树)决策树决策树的三个重点:特征选择、构造决策树、决策树的修剪三种决策树:ID3、C4.5、CARTID3特征选择的方法是 信息增益信息增益越大表示使用这个特征来划分所获得的纯度提升越大缺点:ID3 没有剪枝策略,容易过拟合;信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;只能用于处理离散分布的特征;没有考虑缺失值。C4.原创 2021-04-28 17:05:19 · 146 阅读 · 0 评论 -
西瓜书学习笔记 第7章 贝叶斯分类器
目录参考文献参考文献https://zhuanlan.zhihu.com/p/242652158原创 2021-04-12 10:37:55 · 83 阅读 · 0 评论 -
百面机器学习读书笔记 第二章 模型评估
目录模型评估评估模型的局限性ROC曲线余弦距离的应用A/B测试的陷阱模型评估的方法超参数调优过拟合与欠拟合参考文献模型评估评估模型的局限性准确率(Accuracy):分类正确的样本占总样本个数的比例。当不同类别的样本比例非常不均衡时,将准确率作为分类性能的指标非常局限,可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。精确率和召回率的权衡- 精确率(Precision):分类正确的正样本个数占分类器判定为正样本个数的比例。- 召回率(Recall):分原创 2021-04-07 21:42:45 · 156 阅读 · 0 评论 -
百面机器学习读书笔记 第一章 特征工程
目录特征工程特征归一化类别型特征特征工程本质上来讲,是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。结构化数据。可以看作关系型数据库的一张表,每一列都有清晰的定义,包含数值型、类别型两种基本类型;每行表示一个样本的信息。非结构化数据。主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义。并且每条数据的大小各不相同。特征归一化目的:消除数据特征之间的量纲影响,使原创 2021-04-06 19:10:27 · 78 阅读 · 0 评论 -
西瓜书学习笔记 第6章 支持向量机
目录第6章 支持向量机第6章 支持向量机原创 2021-03-17 16:05:41 · 171 阅读 · 0 评论 -
西瓜书学习笔记 第4章 决策树
目录第4章 决策树4.1 基本流程4.2 划分选择4.2.1 信息增益4.2.2 增益率4.2.3 基尼指数4.3 剪枝处理4.4 连续与缺失值4.4.1 连续值处理4.4.2 缺失值处理4.5 多变量决策树参考文献第4章 决策树4.1 基本流程决策树(Decision Tree):一类常见的机器学习方法。决策树学习的目的是为了产生一颗泛化能力强,即处理未见事例能力强的决策树。基本流程遵循分治策略(Divide and Conquer),是一个递归的过程。在该算法中,有三种情形会导致递归返原创 2021-02-24 13:59:05 · 273 阅读 · 0 评论 -
西瓜书学习笔记 第3章 线性模型
目录第3章 线性模型3.2 线性回归(Linear Regression)3.3 对数几率回归3.4 线性判别分析参考文献本文仅针对个人不熟知识点进行整理,已知内容或过于简单的就不整理了。第3章 线性模型3.2 线性回归(Linear Regression)基于均方误差最小化来进行模型求解的方法称为“最小二乘法”在x只有一个属性的情况下进行求解(推导过程):对于多个属性的情况,即多元线性回归,常常使用矩阵的形式来表示数据以及分析。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合原创 2021-02-22 16:38:28 · 195 阅读 · 0 评论 -
西瓜书学习笔记 第2章 模型评估与选择
目录第2章 模型评估与选择2.2 评估方法2.2.1 留出法2.2.2 交叉验证法2.2.3 自助法2.3.2 查准率与查全率2.3.3 ROC与AUC2.3.4 代价敏感错误率与代价曲线2.4 比较检验参考文献本文仅针对个人不熟知识点进行整理,已知内容或过于简单的就不整理了。第2章 模型评估与选择2.2 评估方法模型选择(Model Selection)问题:应该选用那种学习算法,使用哪一种参数配置?理想解决方案当然是对候选模型的泛化误差进行评估然后选择泛化误差最小的那个模型。为了对泛化误差进行原创 2021-02-22 12:04:28 · 238 阅读 · 0 评论 -
西瓜书学习笔记 第1章 绪论
目录第1章 绪论本文仅针对个人不熟知识点进行整理,已知内容或过于简单的就不整理了。第1章 绪论假设空间:所有假设组成的空间版本空间:现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间 (version space)。也就是说这多个假设的集合就是假设集合,称为版本空间归纳偏好 (简称"偏好"):机器学习算法在学习过程中对某种类型假设的偏好。奥卡姆剃刀:若有多个假设与原创 2021-02-08 21:56:05 · 97 阅读 · 0 评论 -
百面机器学习 读书笔记
参考文献https://www.jianshu.com/c/90223df0f45c原创 2021-01-28 14:46:08 · 77 阅读 · 0 评论