![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习理论
sladesha
https://github.com/sladesha
展开
-
快速上手关键词抽取的算法
前言在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本,往往几个关键词就可以代表整个文本的主题思想。同时,在很多推荐系统中,由于无法直接就整体文本进行利用,往往会现对文本进行汇总,常用的方法就是embedding或者关键词抽取,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。让我们看下有哪些快速上手可用的方法。TFIDFT...原创 2020-01-04 20:40:18 · 528 阅读 · 0 评论 -
xDeepFM架构理解及实现
本文主要是为了讲解xDeepFM的框架,及如何用tensorflow去实现主干部分,如果需要直接拆箱可用,可以参考:xDeepFM,我的部分代码也来自于其中,这边主要是和大家一起对比着看下,xDeepFM到底做了哪些事情?我的工程实现代码等待我司项目上线稳定后开源。XDeepFM到底extreme在哪里?首先,我在做论坛帖子推荐的时候遇到这么一个问题(问题真实,问题内容纯属虚构),用户A:带有...原创 2019-12-17 21:00:24 · 1293 阅读 · 0 评论 -
因子分析理论介绍
因子分析分为Q型和R型,我们是正对R型进行如下研究:一。因子分析步骤:1.确认是是否适合做因子分析2.构造因子变量3.旋转方法解释4.计算因子变量得分二。因子分析的计算过程:1.将原始数据标准化目的:消除数量级量纲不同2.求标准化数据的相关矩阵3.求相关矩阵的特征值和特征向量4.计算方差贡献率和累计方差贡献率5.确定因子F1,F2,F3...为前原创 2017-04-17 15:55:05 · 14923 阅读 · 0 评论 -
聚类算法理论介绍
1.cost function1.1 距离常见的为欧式距离(L1 norm)&&p=2,拓展的可以有闵可夫斯基距离(L2 norm)&&p=1:当p趋向于无穷的时候,切比雪夫距离(Chebyshev distance):红色的时候为切比雪夫距离,蓝色为闵可夫斯基距离,绿色为欧式距离。1.2相似系数夹角余弦及相关系数,相关系数不受线原创 2016-11-20 17:47:07 · 1226 阅读 · 0 评论 -
Lasso算法理论介绍
先讲一波过拟合:均方根误差也叫标准误差,即为√[∑di^2/n]=Re,n为测量次数;di为一组测量值与真值的偏差。实际考虑回归的过程中,我们需要考虑到误差项,这个和简单的线性回归的公式相似,而在正则化下来优化过拟合这件事情的时候,会加入一个约束条件,也就是惩罚函数:这边这个惩罚函数有多种形式,比较常用的有l1,l2,大概有如下几种:原创 2016-11-14 21:40:11 · 94054 阅读 · 4 评论 -
决策树类算法理论
熵:如果一件事有k种可的结果,每种结果的概率为 pi(i=1…k)该事情的信息量:熵越大,随机变量的不确定性越大。信息增益:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差换句话说,就是原信息集下的信息量-在A特征条件下的信息集的信息量信息增益越大,信息增多,不确定性减小原创 2016-11-13 21:39:29 · 4893 阅读 · 0 评论