机器学习
文章平均质量分 78
码农男孩
研究生在读,分享深度学习、机器学习、计算机视觉、图像处理等相关文章和学习笔记,不定时分享代码资源。期待关注
展开
-
[ KO机器学习] Day9 模型评估:余弦距离的应用
本章的主题是模型评估,但其实在模型训练过程中,我们也在不断地评估着样本间的距离,如何评估样本距离也是定义优化目标和训练方法的基础。在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之问的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是 [-1,11,相同的两个向量之间的相似度为 1。如果希望得到类似于距离的表示,将1减去余弦相似度即为余弦距离因此,余弦距离的取值范围为[0,2],相同的两个向量余弦距离为 0。原创 2022-05-07 17:27:39 · 479 阅读 · 1 评论 -
[KO机器学习] Day8 模型评估:ROC曲线
场景描述二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标有很多。比如精确率、召回率、F1 score、P-R曲线等。上一篇已经对这些指标做了一定的介绍,但也发现这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有很多优点、经常作为评估二值分类器最重要的指标之一。下面我们一起来详细了解一下ROC曲线的绘制方法和特点知识点:ROC曲线、曲线下的面积(Area Under Curve,AUC)、P - R曲线问题1:什原创 2022-05-06 18:31:54 · 1516 阅读 · 0 评论 -
[KO机器学习] Day 7 模型评估:评估指标的局限性
“没有测量,就没有科学。。” 这是科学家门捷列夫的名言。在计算机科学特别是机器学习领域中,对模型的评估同样至关重要。只有选择与问题相匹配的评估方法,才能快速地发现模型选择或训练过程中出现的问题,迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整,这些都是机器学习在模型评估阶段的关键问题,也是一名合格的算法工程师应当具备的基本功原创 2022-05-05 16:12:08 · 1074 阅读 · 1 评论 -
[KO机器学习] Day6:特征工程 图像数据不足时的处理方法
在机器学习中,绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。比如图像分类、作为计算机视觉最基本的任务之一,其目标是将每幅图像划分到指定类别集合中的一个或者多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?知识点:迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充。原创 2022-05-04 15:15:16 · 371 阅读 · 2 评论 -
[KO机器学习] Day5 特征工程:文本表示模型和Word2Vec
文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一,Word2Vec 实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW( Continues Bags Of Words)和 Skip-gram。知识点难度:★★☆☆☆ 词袋模型(Bag of Words),TF-IDF(Term Frequency - Inverse Document Frequency),主题模型(Topic Mod原创 2022-05-03 10:44:41 · 448 阅读 · 0 评论 -
[KO机器学习] Day4 特征工程:如何有效地找到组合特征?
本文介绍一种基于决策树的特征组合寻找方法(关于决策树的详细内容过段时间为大家更新)。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签( 点击 / 未点击 )构造出了决策树,如下图所示。原创 2022-05-02 09:35:10 · 1100 阅读 · 3 评论 -
[KO机器学习] Day3 特征工程: 什么是组合特征?如何处理高维组合特征?
什么是组合特征?如何处理高维组合特征?难度:★★☆☆☆分析与解答:为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征。表1.2是语言和类型对点击的影响。为了提高拟合能力,语言和类型可以组成二阶特征,表1.3是语言和类型的组合特征对点击的影响。原创 2022-05-01 14:40:02 · 588 阅读 · 1 评论 -
[KO机器学习] Day2 特征工程:数据预处理:序号编码、独热编码、二进制编码
类别型特征(categorical feature)主要是指性别(男女)、血型(A,B,AB,O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。原创 2022-04-30 11:23:32 · 987 阅读 · 0 评论 -
[KO机器学习] Day1 特征工程:数据特征归一化以归一化原因
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m) 和千克(kg)作为单位,那么身高特征会在1.6 - 1.8m的数值范围内,体重特征会在50 - 100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化(normalization)处理,使得各指标处于同一数值量级,以便于分析。原创 2022-04-29 21:55:32 · 672 阅读 · 3 评论