百面机器学习
瑾明达2号
Happy cooperation
展开
-
图像数据不足时的处理方法?
在机器学习中,绝大部分模型都需要大量的数据进行训练和学习( 包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。比如图像分类,作为计算机视觉最基本的任务之一,其目标是将每幅图像划分到指定类别集合中的一个或多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?—个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是在模型的形成过程中( 包括构造、学习、推理等),人们提供原创 2021-04-13 12:39:34 · 735 阅读 · 0 评论 -
迁移学习
待完成原创 2021-04-13 12:39:01 · 63 阅读 · 0 评论 -
生成式对抗网络
待完成原创 2021-04-13 12:38:01 · 60 阅读 · 0 评论 -
SMOTE ( Synthetic Minority Over-sampling Technique )
待完成原创 2021-04-13 12:37:25 · 565 阅读 · 0 评论 -
有哪些文本表示模型?它们各有什么优缺点?
机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。词袋模型和N-gram模型主题模型:主题模型用于从文本库中发现有代表性的主题( 得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。词嵌入(word embedding)与深度学习模型词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间( 通常K=50 ~ 300 维)上的原创 2021-04-13 12:25:12 · 811 阅读 · 0 评论 -
组合特征之怎样有效地找到组合特征?
在很多实际问题中,我们常常需要面对多种高维特征。如果简单地两两组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。本节介绍一种基于决策树的特征组合寻找方法。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型( 试用期、付费)、物品类型( 护肤、食品等)4 个方面的信息,并且根据原始输入和标签( 点击/ 未点击)构造出了决策树,如图1.2 所示。于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方原创 2021-04-13 12:06:25 · 350 阅读 · 0 评论 -
梯度提升决策树
待完成原创 2021-04-13 12:05:58 · 99 阅读 · 0 评论 -
什么是组合特征?如何处理高维组合特征?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征,表1.2 是语言和类型对点击的影响。为了提高拟合能力, 语言和类型可以组成二阶特征,表1.3 是语言和类型的组合特征对点击的影响。我认为用户ID一般应该是不需要组合的,这个东西实在想不到有什么理由需要组合到特征向量中,如果发现了,我再来说明。...原创 2021-04-13 11:41:11 · 358 阅读 · 0 评论 -
在对数据进行预处理时,应该怎样处理类别型特征?
机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!常用的基本处理方法:序号编码( Ordinal Encoding ) :序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在“高>中>低” 的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值10 , 例如高表示为3 、中表示为2、低表示为1 , 转换后依然保留了大小关系。独热编码( One-hot Encoding ) :独热编码通常用于处理类别间不具原创 2021-04-13 10:54:37 · 347 阅读 · 0 评论 -
特征工程——为什么要对数值类型的特征做归一化?
百面机器学习涉及到的问题,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响, 如果使用米( m )和千克( kg ) 作为单位, 那么身高特征会在1.6 1.8m,体重特征会在50 - 100kg 的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果, 就需要进行特征归一(Normalization ) 处理,使各指标处于同一数值量级原创 2021-04-12 18:21:32 · 417 阅读 · 0 评论 -
梯度下降法
待完成原创 2021-04-12 18:15:07 · 90 阅读 · 0 评论 -
机器学习之上溢,下溢,病态矩阵
数值分析:矩阵求逆-奇异性、条件数**机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!**机器学习算法通常需要大量的数值计算。这通常是指通过迭代过程更新解的估计值来解决数学问题的算法,而不是通过解析过程推导出公式来提供正确解的方法。常见的操作包括优化(找到最小化或最大化函数值的参数)和线性方程组的求解。对数字计算机来说实数无法在有限内存下精确表示,因此仅仅是计算涉及实数的函数也是困难的。4.1 上溢和下溢连续数学在数字计算机上的根本困难是,我们需要通过原创 2021-04-13 00:10:57 · 588 阅读 · 0 评论