![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
毛飞龙
这个作者很懒,什么都没留下…
展开
-
深度学习中embedding层的理解
在深度学习领域中,Embedding层扮演着至关重要的角色,尤其在处理文本数据或类别数据。Embedding层的功能有两个:1. 将高维稀疏的输入数据(如单词、类别标签等)转换为低维稠密的向量表示,可以大幅降低数据存储和计算量。2. 低维稠密向量捕获了输入之间的语义和上下文信息,语义相近、类别相近的单词或者类别,其表示向量相似度也高,使得模型能够更好地理解数据信息并进行预测推理。上述两个原因,使得模型能够更好的学习和处理输入数据。原创 2024-06-10 09:50:18 · 879 阅读 · 2 评论 -
深度学习-tensorflow 使用keras进行深度神经网络训练
深度学习网络的训练可能会很慢、也可能无法收敛,本文介绍使用keras进行深度神经网络训练的加速技巧,包括解决梯度消失和爆炸问题的策略(参数初始化策略、激活函数策略、批量归一化、梯度裁剪)、重用预训练层方法、更快的优化器算法,以及学习率的调度策略。原创 2023-05-03 11:43:53 · 2155 阅读 · 1 评论 -
深度学习-Tensorflow使用Keras进行模型训练
本文以FasionMNIST/加州房价数据集为例,介绍KerasAPI进行分类问题/回归问题模型训练的方法原创 2023-03-19 11:17:24 · 2734 阅读 · 1 评论 -
机器学习-集成学习(模型融合)方法概述
模型融合方法广泛应用于机器学习中,其原因在于,将多个学习器进行融合预测,能够取得比单个学习器更好的效果,实现“三个臭皮匠,顶一个诸葛亮”,其原因在于通过模型融合,能够降低预测的偏差和方差。本文对模型融合中常见的三种方法进行一个简要介绍:包括Bagging、Boosting、Stacking.........原创 2022-08-13 11:09:31 · 2142 阅读 · 0 评论 -
李沐:机器学习者进阶学习建议
MCU计算机博士、亚马逊首席科学家、B站《动手深度学习》课程讲师沐神对机器学习者进阶学习的建议原创 2022-08-07 16:32:13 · 357 阅读 · 0 评论 -
机器学习在竞赛和工业界应用区别
机器学习在竞赛和工业界应用是有很大区别的,竞赛通常关注极致的评价指标,而工业应用会在满足应用标准的前提下,会更加关注模型的稳定性、可解释性和领域专家知识的应用原创 2022-07-24 16:31:23 · 385 阅读 · 0 评论 -
Linux系统下使用kaggle API下载竞赛数据
在参加Kaggle竞赛或者学习训练时,需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法,一种是普通的web下载,一般本地的windows/mac系统建议采用这种方法,另外一种是kaggle API下载方法,建议在Linux服务器上使用。......原创 2022-06-06 08:54:48 · 1667 阅读 · 0 评论 -
三步在MacOS Anaconda安装ligthGBM
三步在MacOS Anaconda安装ligthGBM原创 2022-01-03 17:40:46 · 2640 阅读 · 2 评论 -
机器学习-集成学习-提升树-LightGBM
GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,该模型具有训练效果好、不易过拟合等优点。在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点原创 2022-01-02 12:30:52 · 313 阅读 · 0 评论 -
机器学习-集成学习-提升树-Xgboost
xgboost 的全称是eXtreme Gradient Boosting,由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。所以不考虑细节方面,两者最大的不同就是目标函数的定义,接下来就着重从xgboost的目标函数定义上来进行介绍。原创 2022-01-02 11:47:41 · 453 阅读 · 0 评论 -
机器学习-集成学习-梯度提升决策树(GBDT)
提升树(Boosting Tree)是以分类树或者回归树位基本分类器到提升方法,提升树被认为是统计学习中性能最好的方法之一Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重(Ada Boosting),或者让新的预测器对前一个预测器到残差进行拟合(GBDT)。预测时,根据各层分类器的结果的加权得到最终结果。原创 2022-01-01 21:34:03 · 2873 阅读 · 0 评论 -
机器学习-集成学习:随机森林(Random Forest)
内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest略做修改0.集成学习如果你随机向几千专家询问一个复杂的问题,然后汇总他们的回答,在许多情况下,你会发现,这个汇总的答案比最好的那个专家回答得要好。同样,如果你聚合一组预测器(比如分类器或者回归器)的预测,得到的预测结果也比最好的单个预测器要好,这种聚合一组预测器来进行预测的方法,称为集成学习。例如..原创 2021-12-27 20:41:01 · 2390 阅读 · 0 评论 -
机器学习-决策树(Decision Tree)
内容参考自:ML-NLP/Machine Learning/3.Desition Tree at master · NLP-LOVE/ML-NLP · GitHub,有修改1. 什么是决策树1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区原创 2021-12-25 21:04:44 · 533 阅读 · 0 评论 -
机器学习-逻辑斯蒂回归(Logistic Regression)
注:内容转自https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning,略有修改。目录逻辑1. 什么是逻辑斯蒂回归2. 什么是Sigmoid函数3. 损失函数是什么4.可以进行多分类吗?5.逻辑斯蒂回归有什么优缺点6. 逻辑斯蒂回归有哪些应用7. 逻辑斯蒂回归常用的优化方法有哪些7.1 一阶方法7.2 二阶方法:牛顿法、拟牛顿法:8. 逻辑斯特回归为什么要对特征进行离散化。9. 逻辑回原创 2021-12-12 17:55:23 · 3006 阅读 · 0 评论 -
机器学习-线性回归(Linear Regression)
1.什么是线性回归线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。 回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。2. 能够解决什么样的问题对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就原创 2021-12-05 16:57:44 · 1796 阅读 · 0 评论 -
scikit_learn中fit()/transform()/fit_transform()区别和联系
函数功能解释fit()根据训练集数据学习得到数据集的特征,比如均值、中位数、标准差等等transform()将fit()学到数据集特征,应用到数据集,比如学习到数据集平均数为6,应用到填充数据中的缺失值fit_transform() = fit()+transform()即将从数据集中学到的特征(均值、中位数、标准差)应用到数据集中举例此处以使用均值填充缺失值举例>>> import numpy as np>>> from skl.原创 2021-11-29 22:08:23 · 1896 阅读 · 0 评论 -
线性代数知识汇总(转载)
发现一片对线性代数的知识点做了非常好的总结性文章,记录下来,供以后查阅。线性代数知识汇总_MyArrow的专栏-CSDN博客_线性代数转载 2021-10-30 16:47:12 · 293 阅读 · 0 评论 -
SVD(奇异值分解)小结
转载自:https://www.cnblogs.com/endlesscoding/p/10033527.html注:奇异值分解在数据降维中有较多的应用,这里把它的原理简单总结一下,并且举一个图片压缩的例子,最后做一个简单的分析,希望能够给大家带来帮助。...转载 2021-09-04 21:49:28 · 92 阅读 · 0 评论 -
支持向量机原理及scikit-learn实现
引言支持向量机(SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或者非线性分类、回归,甚至异常值检测任务。它是机器学习最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配置一个。SVM特别适用于中小型复杂数据分类。目录引言线性可分和线性不可分线性可分数学定义(二维):线性可分情况下的最优分隔平面线性可分情况下最优分隔平面的数学理论(优化理论)二次规划问题线性不可分情况下的最优分隔平面少数样本导致线性不可分情况大量样本线性不可分情况线性不可原创 2021-02-17 22:09:46 · 595 阅读 · 0 评论 -
机器学习模型训练问答
内容主要来自Aurelien Geron《Hands-on Machine Learning withi Scikit-Learn&TensorFlow》线性回归1. 如果训练集超过百万个特征,你需要选择什么线性回归算法进行训练?答:使用随机梯度下降(SGD)或者小批量梯度下降(mini-batch gradient descent),如果内存允许,甚至也可以使用批量梯度下降(batch gradient descent),但是由于计算复杂度随特征数增加而快速上升(比二次方还高),因此,原创 2021-01-31 19:17:09 · 2614 阅读 · 0 评论 -
线性回归模型算法原理及Python实现
线性回归方程线性回归模型的一般表达式:转换为向量表达形式为:训练线性回归模型,主要是得到一组向量,使得均方误差MSE(成本函数)最小参数求解方法一:标准方程MSE为凸函数,有唯一最优解(最小值),为了求解,可以令MSE对求偏导数为0,得到解:手动求解线性回归方程现在我们来使用标准方程计算:import numpy as npX = 2 * np.random.rand(100, 1) # 生存100 X 1维向量(均匀分布随机数)y = 4 + ...原创 2021-01-24 18:17:55 · 2054 阅读 · 0 评论