机器学习-算法
文章平均质量分 75
冰淇淋和慕斯蛋糕
我是一棵小青菜,
不仅菜,还卷不起来
展开
-
【论文阅读】Category-aware Collaborative Sequential Recommendation
以前看过的 顺手做个笔记然而,大多数现有的解决方案都将用户的操作历史视为一个长序列。这种简化通常忽略了动作序列中的细粒度依赖结构。考虑图1所示的示例。对于用户Lily来说,从衣服到鞋子的重复转换表明她的下一个动作很可能与鞋子有关,而她之前浏览的鞋子系列表明她对运动鞋的总体偏好。但她最近浏览的商务套装表明,她目前的意图是穿正装。因此,系统不再适合按照她的一般喜好来推荐运动鞋;相反,推荐正式的鞋子成为更好的选择。这样的观察告诉我们,再次考虑图1中的示例。原创 2022-10-26 23:06:33 · 1057 阅读 · 2 评论 -
【论文阅读】先验规则-Controlling Neural Networks with Rule Representations
提出一个模型:DEEPCTRL下图是模型算法的描述我们建议通过引入数据编码器ϕ和规则编码器ϕ这两个通道来改进规范化训练方法。这样,我们的目标是,对应于从标记数据和规则中。然后,将这两个表示,得到一个。我们使用的是小批量训练,就是有D的存在。为了调整数据与规则编码的相对贡献,我们使用,它也将(zd, zr)与相应的目标(Ltask, Lrule)耦合(算法1中的第4和第5行)。。原创 2022-10-25 11:12:30 · 1039 阅读 · 1 评论 -
【论文阅读】A statistical analysis based recommender model for heart disease patients
在这种技术中,计算信息增益,即给定类的每个特征的熵。数据划分为训练集和测试集->数据预处理->选择重要的特征->用一些基础的分类器进行分类->预测结果。我们主要是对心脏病进行一个疾病预测(四选一),然后进行建议的匹配,这个建议来源于专家建立的知识库。F代表critical属性集合(f1:氧饱和度,f2:血压,f3:胆固醇,f4:血糖)第一阶段实现一种属性计算器技术,该技术针对输出类计算数据集的特征。使用了阈值对信息增益进行了一个下线的划分,以得到最重要的属性。这里主要是把建议也给分类了,分成了5类。原创 2022-10-24 23:37:32 · 602 阅读 · 1 评论 -
【论文阅读】Dual-level diagnostic feature learning with recurrent neural networks for treatment sequence r
接着我们使用element attention 来学习 治疗项目和对应的CTRs的优先级(不同的治疗项目和结果会对后续产生影响,我们给他们分配一个权重,然后把治疗项目和对应的CTRs的嵌入进行一个结合,得到一个新的embedding,(或者是先contact成新的embedding,然后使用attention学习weight)(计算损失的时候计算的是 用户本来的治疗顺序集 以及 推荐的治疗顺序集)我们对治疗方案和治疗方案结果分别使用CBOW,进行一个密集的嵌入表示(主要原因:原本的数据维度又多,又稀疏)原创 2022-10-24 20:51:43 · 866 阅读 · 1 评论 -
【】评价指标 mrr accuracy recall
来自。原创 2022-09-26 22:59:12 · 573 阅读 · 0 评论 -
【推荐系统】顶会文章
最近略读的几篇推荐系统的文章,稍微整理一下相关的内容、方法和模型,便于学习补充,之后有需要会在这个基础上补充整理。原创 2022-08-21 19:15:52 · 712 阅读 · 0 评论 -
【论文阅读】【HLLDA】 A Hierarchical Model of Web Summaries
我们认为文档层次结构H(例如DMOZ层次结构)是一棵树,其中内部节点(类别节点)和叶子节点(文档),以及连接它们的边是先验已知的。关于DMOZ,网上搜到的一个dmoz网站进行了截图,不知道是不是这个意思。H中的每个节点Ni被映射到一个多项词分布MultNi,而到 叶节点D(文档)的每个路径cd 与 出现在这条路径上的多项混合物(MultC0 . . . MultCk, MultD) 相关。(好长一句话【原文(部分)】Each node Ni in H is mapped to a multi-nomi原创 2022-06-18 02:56:17 · 201 阅读 · 1 评论 -
【LDA】吉布斯采样
吉布斯采样是用条件概率得到联合概率分布。其实是得到我们想要东西的近似解蒙特卡洛方法是为了解决一些不太好求解的求和或者积分问题。其实就是一个近似方法,通过采样的多个样本代替原本的连续函数,帮助我们把这个式子解出来。对于一些常见的概率分布p(x),如正态分布等,我们先通过一些公式将其转换为0-1之间的数,(均一化处理嘛,)然后进行采样。对于不太常见的概率分布f(x),我们用一个常见的概率分布(如高斯分布)q(x)把他蒙上,就是让 f(x)...原创 2022-06-16 03:19:30 · 1822 阅读 · 0 评论 -
【LDA】基础知识笔记——主要是AE、VAE
似然函数原创 2022-06-06 23:29:26 · 271 阅读 · 0 评论 -
【LDA】EM变分推理 粗略版笔记【待完善
大佬说的很详细了 :csdn_机器学习之潜在狄利克雷分配(LDA)变分EM算法及python实现简单概括一下:思想:(原文摘录:)假设模型是联合概率分布p(x,z),其中 观测变量x , 隐变量 z ,包括参数。目标是学习模型的后验概率 p ( z ∣ x )。[tip:已知x,求隐变量z]但是这个分布复杂无法直接求解,所以考虑用概率分布 q ( z ) 来近似条件概率分布 p ( z ∣ x ),之后用KL散度KL(q(z)||p(z|x)) 计算两者之间的相似度,q(z)称为变分分布。KL散度原创 2022-06-06 22:59:51 · 127 阅读 · 0 评论 -
【LDA】LDA主题模型笔记—主要是狄利克雷
d表示文章,z表示主题,w表示单词这里意思是,狄利克雷先验分布 产生 一组 多项式分布集合也就是说 狄利克雷分布 产生 主题分布 (也就是doc-topic分布)(超参数 α\alphaα情况下 )贝叶斯思想中:先验概率+参数估计=后验概率在beta分布中 beta分布研究的是 “一个长度为k的乱序序列(序列中每个数符合均匀分布)中,第k个大的数满足什么分布”的问题。(链接中对应部分的含糊自我概括版),也就是说,对于序列中每个数,beta可以给出这个数的一个分布,也就是说,对序列中的每个数,只要知道原创 2022-06-04 04:24:28 · 810 阅读 · 0 评论 -
【损失函数】熵/相对熵/交叉熵
便于理解但是不够精确的说法:熵:一种可能性的所有的信息量相对熵(KL散度):真实分布与预测的分布的信息量的差(真实-预测),值越小说明与真实约接近。交叉熵:由kl散度公式变形而得,式子拆开来前半部分是熵后半部分就是交叉熵。因为前面的熵不变,所以优化的时候直接用交叉熵计算损失更加方便。参考文献https://blog.csdn.net/tsyccnh/article/details/79163834...原创 2022-02-11 23:25:03 · 531 阅读 · 0 评论 -
【机器学习-分类】决策树预测
用一些机器学习的算法对数据进行一个分类,下面是一些需要用到的基础代码,并不包括针对项目的模型处理和修改,留作记忆学习。对于数据划分训练集直接省略def Tree_score(depth = 3,criterion = 'entropy',samples_split=2): #构建树 tree = DecisionTreeClassifier(criterion = criterion,max_depth = depth,min_samples_split=samples_split) #训原创 2022-02-17 16:45:21 · 1538 阅读 · 0 评论 -
【论文阅读】略读 基于注意力门控图神经网络的文本分类
基于注意力门控图神经网络的文本分类[1]邓朝阳,仲国强,王栋.基于注意力门控图神经网络的文本分类[J/OL].计算机科学:1-14[2022-03-06].http://kns.cnki.net/kcms/detail/50.1075.TP.20220223.1642.022.html.本文将每个输入的目标文本转换为独立的图结构数据,将文本中的单词作为节点,在节省内存资源消耗的同时保证了节点的特征表达能力.同时,为了有效地利用单词的语义特征信息,并在单词节点之间进行充分的语义信息交互,本文提出了注意力原创 2022-03-07 03:30:24 · 2684 阅读 · 0 评论 -
【论文阅读-未完待续】A Novel Neural Topic Model and Its Supervised Extension
来源百度就可以一篇之前看过的文章,但是有些记不住,打算做成博客记录完善一下。首先直接上模型图。1.输入层(g, d):n-gram g = w1,···,wn,文档ID d∈D,其中D是文档集2.n-gram嵌入层(le∈R 1×300):这一层的目标是用分布式嵌入表示来表示每个n-gram。使用在大型谷歌News数据集(大约1000亿个单词)上训练过的可用工具word2vec1,每个单词或短语由一个300维的嵌入向量表示。那么对于任意n-gram g,如果g在词汇表中,我们直接使用它的嵌入原创 2022-03-05 18:33:59 · 390 阅读 · 0 评论 -
【论文阅读】基线论文 Deep Neural Networks for YouTube Recommendations
Deep Neural Networks for YouTube Recommendations ,百度就可以。推荐YouTube的视频会在三个主要角度上受限:规模(Scale)(YouTube的数据太大的,比以往算法成熟应用的数据集都要大),(新鲜度)(Freshness)(YouTube视频库动态更新快,推荐系统对新内容建模),噪音(noise)(算法需要对个别特征有鲁莽性)原创 2022-02-21 03:09:35 · 733 阅读 · 0 评论 -
负采样Negative Sampling
1.噪声对比估计(Noise contrastive estimation)语言模型中,根据上下文c,在整个语料库V中预测某个单词w的概率,一般采用softmax形式,公式为:为了避免巨大的计算量,NCE的思路是将softmax的参数估计问题 转化成 二分类。二分类两类样本分别是真实样本和噪声样本:正样本:经验分布生成的(即真实分布)标签D=0,负样本:噪声,由q(w)生成 对应标签D=1。从正样本中提取一个,从噪声分布中提取k个噪声样本,在总样本(真实样本+噪声样本)中,w代表预测的目标词。原创 2022-02-13 23:20:18 · 2417 阅读 · 0 评论