机器学习
文章平均质量分 92
机器学习
山顶夕景
实践出真知
展开
-
【推荐系统】特征工程技巧(kaggle比赛技巧、tx的做法)
比如特征“颜色”有“红,黄,蓝”三种,转换为独热向量之后,红表示为(1,0,0),黄表示为(0,1,0),蓝表示为(0,0,1)。但是,如果采用序号编码,将三种颜色表示为1,2,3的话,就会有问题。比如6岁的人,表示为[1,0,0,0,0],75岁的人表示为[0,0,0,1],然后,可以将“1-7岁”前的系数设置为负数,表示年龄越小越应该让座。比如,要想判断某人是否购买某一部手机,可以计算出他以往购买的手机的价格最大值(或均值),然后与现在这部手机的价格进行比较,得到一个新的特征。二进制编码分为两步。...原创 2022-07-22 00:37:43 · 3059 阅读 · 0 评论 -
【剑指offer】高频ML/DL面试题
代码层面:完成强化学习算法(CPG PPO A3C Q-learning DQN)在贪吃蛇环境的应用(即作出控制贪吃蛇的智能体)在github上找到对应算法的代码并跑通代码阅读理解代码的实现逻辑,对代码中用到的重要函数查阅和理解对算法的调试和优化,使贪吃蛇智能体取得更好的分数理论层面阅读并理解五大算法的论文(需配合贪吃蛇代码的完成顺序)对分布式相关知识的学习:按顺序完成学习A3C DPPO IMPALA seed-rl的论文及其相关文章成果验收(1)考察智能体在贪吃蛇的得分三个算.原创 2021-05-25 01:24:21 · 8710 阅读 · 27 评论 -
【解决】sklearn-LabelEncoder遇到没在编码规则里的新值
一、问题描述问题:sklearn-LabelEncoder 遇到没在编码规则里的新值。打通线上线下配置:线下生成训练样本时,用户先定义特征MFDL配置文件,在模型训练后,通过平台一键打包功能,将MFDL配置文件以及训练输出的模型文件,打包、上传到模型管理平台,通过一定的版本管理及加载策略,将模型动态加载到线上服务,从而实现线上、线下配置一体化。提供一致性特征样本:通过实时收集在线Serving输出的特征快照,经过一定的规则处理,将结果数据输出到Hive表,作为离线训练样本的基础数据源,提供一致性特征样本原创 2023-05-28 18:50:27 · 1455 阅读 · 1 评论 -
【推荐系统】特征拼接和工程实践
特征在线/离线一致性另一个难点是特征处理一致性问题,也称为 Training-Serving skew。 一般情况下,算法工程师都是离线整理数据,处理特征,训练模型,离线指标ready后再上线小流量实验。在基建不完善的情况下,有可能会出现:同一条数据,离线训练和在线推理的特征处理结果不一致。 举个例子极端的例子: city=shenzhen这个字符串,离线数据样本处理时可能使用spark计算,计算hash值假设为1001,在线rank计算shenzhen哈希值可能使用语言不一样,hash算法也不一样,导致转载 2023-05-25 01:05:12 · 1027 阅读 · 0 评论 -
【CS224W】(task6)Google的PageRank算法
Eigenvector Formulation特征向量形式。在之前的task中提到的无向图,直接使用邻接矩阵��=��λc=Ac,求出该矩阵的特征向量eigenvector,即节点特征,如上个task我们对地铁路线求解每个节点的nx.degree_centrality(G)然后可视化。PageRank的随机邻接矩阵stochastic adjacency matrix M,flow equation也有类似的特征向量等式(如下),此时r即M的图的平稳分布的一个随机游走:原创 2023-02-25 17:08:19 · 940 阅读 · 0 评论 -
利用pandas_udf加速机器学习任务
在java分布式系统中执行python程序是挺耗性能的(如下图,数据在JVM和Python中进行传输,有额外的序列化和调用开销),apache arrow项目由此发起,以加速大数据分析项目运行速度。apache arrow是一种内存中的列式数据格式,用于spark中JVM和python进程之间的数据高效传输。,但在spark3.0后的版本中需要改为。udf自定义函数,可让我们在使用pyspark进行业务分析时高效自定义功能,一般分为两种:event level:是对一条事件or数据进行计算。原创 2023-02-04 16:10:06 · 1588 阅读 · 0 评论 -
【Pytorch基础教程35】引入非线性的激活函数
线性分类模型一般是一个广义线性函数,即一个或多个【线性判别函数】加上一个【非线性激活函数】,所谓“线性”是指决策边界由一个多个超平面组成。什么是Sigmoid?它有什么作用?👶通过引入S型的对数几率函数y=11+e−zy=\dfrac{1}{1+e^{-z}}y=1+e−z1该激活函数作用是因此引入非线性,则有多种选择。逻辑回归即线性回归+sigmoid函数,是最基础也是最重要的模型:通过逻辑回归能演化出很多模型:(1)非线性(2)可微性:因为在反向传播更新梯度时,需要计算损失函数对权重的偏导数原创 2022-12-04 16:38:12 · 1684 阅读 · 0 评论 -
【南瓜书ML】(task1)绪论+模型评估与选择
过拟合:数据样本少时模型学不到合适的模型参数。统计学:通过机器学习对数据挖掘发挥影响,而机器学习和数据库是数据挖掘的两大支撑。数据集、样本、特征(属性)、特征空间(属性空间、样本空间、输入空间)、特征向量、维数;学习(训练)、训练数据、训练样本、假设、预测、标记、样例、标记空间(输出空间)、测试、测试样本;分类、回归、聚类、簇、监督、无监督、泛化能力;归纳、演绎、概念学习、假设空间、版本空间;归纳偏好(偏好)、奥卡姆剃刀。Eote(La∣X,f)=∑h∑x∈X−XP(x)I(h(x)≠f(x))P(h∣X原创 2022-07-12 00:44:00 · 816 阅读 · 1 评论 -
【南瓜书ML】(task2)线性模型的数学推导(最小二乘估计、广义瑞利商、极大似然估计等)
(1)复习线性模型(线性回归,对数几率回归进行分类,线性判别分析LDA进行降维,多分类学习,类别不平衡问题中的采样or处理方法等)。(2)使用奇异值分解,使得数值解更加稳定。原创 2022-07-16 17:36:15 · 907 阅读 · 1 评论 -
【南瓜书ML】(task3)决策树和GBDT中的注意事项
通过信息增益计算的公式,我们可以计算我们的决策特征顺序,首先计算总的经验熵:H(D)=−(9/15)log(9/15)−(6/15)log(6/15)=0.971H(D)=-(9 / 15) \log (9 / 15)-(6 / 15) \log (6 / 15)=0.971H(D)=−(9/15)log(9/15)−(6/15)log(6/15)=0.971然后让A1、A2、A3、A4分别表示年龄、有工作、有自己房子和信贷情况4个特征,则计算年龄的信息增益为: 年龄: g(D,A1)=H(D)原创 2022-07-21 23:10:21 · 537 阅读 · 0 评论 -
【南瓜书ML】(task4)神经网络中的数学推导
如果我们要通过一位同学的体重、身高预测TA的性别,前向传播的过程就是给定体重值71,身高值178,经过神经元h1、h2和o1的计算,得到一个性别概率值,比如说0.87,这就是TA可能为男性的概率。对输出层神经元来说(图中的o1),我们可以直接利用梯度下降法计算神经元相关权重(即图5中的权重w5和w6)的梯度,从而进行权重更新,但对隐层神经元的相关参数(比如w1),我们又该如何利用输出层的损失进行梯度下降呢?也就是说,最终的梯度逐层传导回来,“指导”权重w1的更新。............原创 2022-07-24 20:33:49 · 830 阅读 · 1 评论 -
【南瓜书ML】(task5)支持向量机的数学推导
SVM中的求解过程:- 拉格朗日乘子法:把约束条件搞到目标函数里面去。- KKT条件:把约束条件为不等式的,转变为约束条件为等式。- 拉格朗日对偶:把不容易解决的问题,转变为容易解决的对偶问题。- 核函数:把本来线性不可分的点,投射到更高维度上去,使其变得线性可分。...原创 2022-07-28 23:54:56 · 502 阅读 · 0 评论 -
【李宏毅机器学习】Explainable AI
- local explanation的任务是判断出这图片为啥是XX;global explanation的任务是model能够学习到XX是长啥样的(这里说的是XX识别)。- explanable AI典型的2种方法是敏感性分析(Sensitivity Analysis)和基于梯度的方法(Gradient-based Methods)。 - 敏感性分析:出发点就是看你的模型对于哪个数据实例非常敏感。例如一个分类器,如果我们删除掉一个数据点,模型的决策边界有了剧烈的变化,那么我们就说这个数据点事非原创 2022-10-16 15:20:24 · 1534 阅读 · 1 评论 -
【统计分析】(task1) 假设检验1:方法论与一元数值检验
不同检验统计量的形式不尽相同,其所服从的分布也不相同,但是假设检验的思路却是有共同之处的:构造检验统计量——输出对应分布的分位点——计算临界值(拒绝域)——做出判断。原创 2022-08-18 01:01:00 · 1521 阅读 · 0 评论 -
【统计分析】(task2) 假设检验2:多元数值向量检验
- 如为了判断两个城市的企业发展状况存不存在显著差异,需要==将这些指标作为一个整体去研究==,才能解决上述问题。而在多元数值向量的假设检验中,最常用的假设检验便是均值向量的假设检验。- 多元均值向量检验中,成对检验的原理与一元均值检验的成对检验原理是相似的,本质上做两个均值向量之差与零向量的之间的单样本均值向量检验。原创 2022-08-21 13:23:31 · 3593 阅读 · 2 评论 -
【统计分析】(task3) 假设检验3:分类数据检验(更新ing)
- 卡方检验在多种频数表中都可以应用,但要注意绝对频数与理论频数是否过低;Fisher检验只适用于$2\times 2$列联表,但是在该表中的精确度与适用性都优于卡方检验。因此在$2\times 2$列联表中,推荐使用Fisher检验;在其他表格中使用卡方检验。- 使用卡方分布进行拟合优度检验的步骤: - 分类。根据**实际频数**$o_i$确定类别,若某个变量取值下样本的个数大于5,则直接将该取值作为一个单独的类;若小于5,则与相邻的取值合并为一个类。原创 2022-08-21 21:04:24 · 722 阅读 · 1 评论 -
【统计分析】(task5) 金融量化分析与随机模拟(通过随机模拟估计看涨期权的报酬分布)
为了解决使用布朗运动描述股票价格走势会出现负数的问题,我们尝试给布朗运动加上一个仅和时间 $t$ 有关的漂移项 $\mu t$, 以及一个尺度参数 $\sigma$,这样就可以得到带漂移项的布朗运动:$X(t)=\mu t+\sigma B(t)$。但是因为 $X(t)$ 与 $B(t)$ 的取值随着时间 $t$ 的变化也可以是负数。 - 虽然股票价格不能是负数,但是股票价格的自然对数可以是负数。因此,我们假设使用$S(t)$表示股票价格(注意现在不是$X(t)$了),而$X(t)$是股票价格的自然原创 2022-08-27 14:31:07 · 1706 阅读 · 2 评论 -
【统计分析】(task4) 应用随机过程(更新ing)
在概率论中,随机变量的个数主要有一维随机变量、多维随机变量、大数定律中也涉及无穷个随机变量,但它们之间是相互独立的。我们不仅需要对随机变量本身进行研究(如随机变量的分布函数、密度函数等等),也要开始研究随机现象的变化过程。在这个前提下,我们必须考虑无限多个随机变量的一次观测,与大数定律不同的是:这些无限多个随机变量可能并不是相互独立的。因此,我们将需要研究的无穷多个随机变量(很多情况不是相互独立的)称为随机过程。样本点or基本事件ω\omegaω:随机试验的可能结果称为样本点或基本事件。样本空间Ω\Ome原创 2022-08-25 22:28:27 · 1396 阅读 · 3 评论 -
GBDT和随机森林的区别
学习总结随机森林中的随机主要来自三个方面:其一为bootstrap抽样导致的训练集随机性,其二为每个节点随机选取特征子集进行不纯度计算的随机性,其三为当使用随机分割点选取时产生的随机性(此时的随机森林又被称为Extremely Randomized Trees)。一些机器学习的特征工程API(特征提取、特征预处理、特征降维等)要熟悉。如DictVectorizer字典特征提取,如果在参数中设定sparse = False则DictVectorizer默认返回的是一个one hot编码矩阵,原创 2022-04-17 18:01:50 · 1553 阅读 · 1 评论 -
【AI基础】AUC/ROC指标
一、先从混淆矩阵讲起下面我们将预测类别为1的称为positive(阳性),预测类别为0的negative(阴性);预测正确的称为true(真),预测错误的称为false(伪)。真实类别->正样本负样本预测为真真阳性TP(True positive)假阳性FP(False positive)预测为假假阴性FN(false negative)真阴性TN(true negative)上面的对应关系其实就是混淆矩阵了,现在引出【真阳率】(True posit原创 2022-04-07 15:01:31 · 1515 阅读 · 0 评论 -
【第1&2章】ML基础和监督学习算法(附sklearn花式调参)
学习心得(1)scikit-learn 依赖于另外两个 Python 包:NumPy 和 SciPy。若想绘图和进行交互式开发,还应该安装 matplotlib、IPython 和 Jupyter Notebook。(2)如果不熟悉 NumPy 或 matplotlib,推荐阅读 SciPy 讲稿(http://www.scipy-lectures.org/)的第1章(3)《python机器学习基础》代码:https://github.com/amueller/introduction_to_ml_w原创 2021-09-07 23:19:19 · 1348 阅读 · 0 评论 -
【kaggle】特征工程 trick
文章目录一、特征工程流程二、类别编码方法三、特征交叉四、特征筛选一、特征工程流程结构化比赛中,做特征工程时:可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;然后再做特征编码,在编码后也可以利用模型去筛选特征。如果原始数据的特征足够有效,就可以不做特征筛选;利用统计值筛选,比模型筛选靠谱点。二、类别编码方法对于类别字段,是one hot、标签编码、频率编码和目标编码都要做吗:先看类别字段的取值空间,如果不大,可以one hot独热编码。通过EDA分析频原创 2022-04-01 21:32:24 · 1249 阅读 · 0 评论 -
【Spark】(task4)SparkML基础(数据编码)
学习总结文章目录学习总结零、导言一、构建ML Pipeline机器学习流程1.1 ML Pipeline构建流程1.2 ML Pipeline组件二、数据编码2.1 学习Spark ML中数据编码模块2.2 读取文件Pokemon.csv,理解数据字段含义2.3 将其中的类别属性使用onehotencoder2.4 对其中的数值属性字段使用 minmaxscaler2.5 对编码后的属性使用pca进行降维(维度可以自己选择)Reference零、导言【导言】park是一个快速和通用的大数据引擎,可以通原创 2022-04-01 20:57:55 · 6137 阅读 · 1 评论 -
【AI基础】bias和variance的奇妙关系
文章目录一、误差Error分析1.估测变量x的偏差和方差2.不同模型情况1)不同模型的方差2)不同模型的偏差3)方差VS偏差3.模型的选择1)交叉验证2)N-折交叉验证二、Bagging与Boosting策略2.1 Bagging策略(1)Bootstrap抽样(2)bootstrap造成的数据集差异2.2 Boosting2.3 基分类器用树型模型的原因一、误差Error分析1.估测变量x的偏差和方差【举栗子】一次打靶实验,目标是为了打到10环,但是实际上只打到了7环,那么这里面的Error就是原创 2022-03-20 22:12:34 · 1880 阅读 · 2 评论 -
【算法岗面试】某小厂E机器学习
文章目录1.deepFM的FM特点,deep部分设置了多少层,依据2.算法题:爬楼梯3.算法题:最大子数组和4.sql题:商品id、类别、价格,mysql找出找出每类前10大的商品5.1000个学生成绩排序,比快排更快的方法6.常用的数据预处理有哪些操作7.transformer的文本抽取8.反欺诈(风控)的分类算法9.大数据spark和hadoop(1)Scala和PySpark(2)Spark原理(3)一个具体栗子Reference1.deepFM的FM特点,deep部分设置了多少层,依据FM模型的原创 2022-03-12 09:17:29 · 3861 阅读 · 1 评论 -
【kaggle】基于xgboost的boston房价预测
学习总结(1)本task其实较为简单。选用最熟悉(简单)的波士顿房价数据集,进行数据分析;另外主要是回顾sklearn的基本用法,复习xgboost模型及其参数的选择。文章目录学习总结一、题目二、数据集分析2.1 占地面积和房价2.2 类别型特征和房价2.3 热力图分析特征相关性三、数据预处理3.1 房价的基本分布3.2 高斯分布四、特征工程4.1 缺失的数据4.2 填充缺失值4.3 提取所需特征4.4 类别型特征编码五、模型5.1 Lasso模型5.2 xgboost模型5.3 模型结果比较Refer原创 2021-12-29 21:19:11 · 5862 阅读 · 10 评论 -
【CS224n】(assignment3)Adam和Dropout
学习总结(1)adam和dropout是算法岗面试的常考题,下面的问题是源自斯坦福大学NLP的CS224n作业assignment3的2道题。(2)看adam论文中的伪代码(上图):从while循环往下看,第一行是更新step,第二行是计算梯度,第三行计算一阶矩的估计,即mean均值第四行计算二阶距的估计,即variance,和方差类似,都是二阶距的一种。第五、六行则是对mean和var进行校正,因为mean和var的初始值为0,所以它们会向0偏置,这样处理后会减少这种偏置影响。第七行是梯原创 2021-12-14 17:16:22 · 1233 阅读 · 0 评论 -
【书单】大数据与人工智能
今晚b站偶然看到一个大佬分享【大数据分析与人工智能】的学习路径,我彻底吓尿了,把这个小姐姐说的书记录下。视频链接,另外这个up好像以前的视频也有点东西呜呜呜。。01 Python 语言python编程实践 从入门到实践python编程快速上手python变成原理 --MIT05 数据分析及可视化利用Python进行数据分析07 机器学习机器学习实践 hands-on machine learning with scikit-learn keras & TensorFlow精通特征原创 2021-06-08 01:00:28 · 740 阅读 · 0 评论 -
超牛大佬的算法岗科普&面经
本文来自东北大学毛小伟大佬的经验贴:面试这次春招实习,一共面了7家公司,经历了20多轮面试,拿了6家offer,最终选择了腾讯的CDG腾讯广告部门,推荐算法岗位,base深圳。不同于其他面经分享面试官问的具体题目,我主要是从大方向分享如何准备面试,授人以鱼不如授人以渔。分为简历、自我介绍、考察知识点三部分。1 简历简历一定清晰简洁,不要花里胡哨,内容控制在一页。参考下面这个模板除了自己的基本信息外,最重要的就是要项目(实习、比赛、论文都算作项目一种)。有两点需要注意。第一点描述项目的时候不要只原创 2021-06-16 05:09:47 · 1747 阅读 · 0 评论 -
21句话简述机器学习
1.机器学习有四种用途:分类、聚类、回归和降维。更严格一点,机器学习的目的只有三个:分类、聚类和回归,降维不过是达成目标的手段之一。2.分类和聚类都是对个体样本归类,看起来很相似,实则相去甚远——前者属于有监督的学习,后者属于无监督的学习。分类是基于经验的,而经验来自过往的数据,这意味着分类需要训练;聚类则是基于当前全部样本的特征,不依赖经验,自然也就无需训练。举个例子:让你从一堆水果中挑出苹果、橘子和香蕉,这是分类;让你将画在纸上的若干个图案分组,分组规则由你决定,这是聚类。3.从字面上看,分类和转载 2021-09-04 21:05:05 · 879 阅读 · 2 评论 -
机器学习和深度学习的主要术语(中英)
前言 本文参考谷歌官网对机器学习术语的解释,进行总结并加以描述。 什么是机器学习?简单来说,机器学习系统通过学习如何组合输入信息来对未见过的数据做出有用的预测。 主要术语(基本) 主要包括标签、特征、样本、训练、模型、回归模型、分类模型、泛化、过拟合、预测、平稳性、训练集、验证集、测试集。 标签(label) 标签是我们要预测的事物,在分类任务中的类别,比如是猫或狗;简单线性回归中的y变量;。标签可以是小麦未来的价格、图片中显示的动...原创 2021-06-12 16:33:57 · 3966 阅读 · 0 评论 -
【一二月实战清单】LightGBM和文本相似度
注意事项(1)之前只是粗浅地学了点理论,如XGBoost用二阶近似损失函数,LightGBM提出单边梯度采样和互斥特征绑定,一二月的打卡是LightGBM的实战和文本相似度。(2)在第二部分的打卡顺便熟悉paddle和白嫖GPU。(3)具体内容后面更新。文章目录注意事项一、题目及介绍二、LightGBM实战(项目一)三、具体任务任务1:模型训练与预测任务2:模型保存与加载任务3:分类、回归和排序任务任务4:模型可视化任务5:模型调参(网格、随机、贝叶斯)任务6:模型微调与参数衰减任务7:特征筛选方法原创 2022-01-24 23:33:15 · 1605 阅读 · 0 评论 -
pip安装超时的解决方案
用pip进行python包安装的时候经常会出现socket.timeout: The read operation timed out的问题>> 解决方案 <<使用国内镜像(以安装tushare pro为例)pip install tushare -i https://pypi.tuna.tsinghua.edu.cn/simple/>> 深入...原创 2020-02-29 19:23:57 · 1387 阅读 · 0 评论 -
五个给机器学习和数据科学入门者的学习建议
选自towardsdatascience;作者:Daniel Bourke机器之心编译;参与:韩放、一鸣都说做一件事情最好的时机就是「现在」,但是从何开始往往会难倒一大批人,更不用说是想要入门数据科学和机器学习的朋友了。本文是一篇科普扫盲文章,作者以初学者的视角,为同样想「入坑」的读者们提供了一些建议,还有一些可以获得的学习资源。两年前,我开始在网上自学机器学习,并且通过 YouT...原创 2020-01-04 12:46:21 · 466 阅读 · 0 评论 -
机器学习(零)导学和sklearn库
一.机器学习的目标机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能• 多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科• 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用二.机器学习分类• 监督学习 (Supervised Learning)• 无监督学习 (Unsupervi...原创 2020-02-14 14:08:26 · 723 阅读 · 0 评论 -
机器学习--学习计划
先声明大部分都参照(https://zhuanlan.zhihu.com/p/22543073)数学知识的复习线性代数:(矩阵、特征值、特征向量、秩)微积分:(极限、导数、拉格朗日中值、泰勒级数展开、傅里叶变换)概率论:(https://blog.csdn.net/chybin500/article/details/78470705)需要的概率论知识统计学基础:相关性分析(相关系数r...原创 2020-01-04 12:52:33 · 490 阅读 · 0 评论 -
机器学习(一)无监督学习之聚类&降维
1原创 2020-02-14 18:10:35 · 2720 阅读 · 0 评论 -
机器学习(二)聚类的DBSCAN方法及学生上网聚类分析
一.DBSCAN算法(1)简介一种基于密度的聚类算法:• 聚类的时候不需要预先指定簇的个数• 最终的簇的个数不定(2)数据点分类• 核心点:在半径Eps内含有超过MinPts数目的点• 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内• 噪音点:既不是核心点也不是边界点的点(3)DBSCAN算法流程1.将所有点标记为核心点、边界点或噪声...原创 2020-02-15 12:09:30 · 3263 阅读 · 15 评论 -
机器学习(三)降维之PCA及鸢尾花降维
主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。 PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保留原始数据的信息。在介绍PCA的原理之前需要回顾涉及到的相关术语:• 方差:各个样本和样本均值的差的平方和的均值,用来度量一组数据的...原创 2020-02-15 14:03:00 · 6815 阅读 · 3 评论 -
机器学习(四)降维之NMF及人脸特征提取
一.非负矩阵分解(Non-negative Matrix Factorization ,NMF)是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。• W矩阵:基础图像矩阵,相当于从原矩阵V中抽取出来的特征• H矩阵:系数矩阵。• NMF能够广泛应用于图像分析...原创 2020-02-15 15:43:36 · 3084 阅读 · 1 评论