推荐系统

表征学习方法

定义:表征学习或特征学习是学习一个特征的技术集合。

特征学习可分为两类:监督的和无监督的。

  • 监督特征学习,被标记过的数据被当作特征用来学习,例如神经网络,多层感知机,(监督)字典
  • 无监督特征学习中,未被标记过的数据被当作特征用来学习。

表征学习方法

监督字典学习
总体来说,字典学习是为了从输入数据获得一组的表征元素,使每一个数据点可以(近似的)通过对表征元素加权求和来重构。字典中的元素和权值可以通过最小化表征误差来得到。通过L1正则化可以让权值变得稀疏(例,每一个数据点的表征只有几个非零的权值)。
监督字典学习利用输入数据的结构和给定的标签(输出)来优化字典。例如,2009年Mairal等人提出的一种监督字典学习方案被应用在了分类问题上。这个方案的优化目标包括最小化分类误差,表征误差,权值的1范数(L1正则化)和分类器参数的2范数。 有监督的字典学习可以被视为一个三层神经网络(一层隐含层),第一层(输入层)到第二层(隐含层)是表征学习,第二层到第三层(输出)是分类器的参数回归。 [2]
神经网络
神经网络是通过多层由内部相连的节点组成的网络的一个学习算法。它的命名是受到神经系统的启发,它的每一个节点就像神经系统里的神经元,而每一条边就像一条突触。神经网络里面的每一条边都有对应的权值,而整个网络则定义运算法则将输入数据转换成为输出。神经网络的网络函数通过权值来刻画输入层跟输出层之间的关系。通过适当的调整网络函数,可以尽量最小化损耗的同时解决各种各样的机器学习任务。

PCA
主成分分析(PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。
*** KPCA***
PCA只能处理线性数据降维。KPCA将原始数据通过核函数映射到高维空间,再利用PCA算法进行降维。
KPCA详细介绍见此博文https://www.jianshu.com/p/708ca9fa3023
KPCA实现https://zhuanlan.zhihu.com/p/138613161
ICA
独立成分分析或独立分量分析(Independent components analysis,缩写:ICA) 是一种利用统计原理进行计算的方法。它是一个线性变换。这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。独立成分分析是盲信号分离(Blind source separation)的一种特例。独立成分分析并不能完全恢复信号源的具体数值,也不能解出信号源的正负符号、信号的级数或者信号的数值范围。独立成分分析是研究盲信号分离(blind signal separation)的一个重要方法,并且在实际中也有很多应用。“鸡尾酒会问题”

ps:盲信号分离,指的是从多个观测道德混合信号中分析出没有观测道德原始信号。盲信号的“盲”字强调了两点:1)原始信号并不知道;2)对于信号混合的方法也不知道。

LINE
现实世界信息网络的理想嵌入模型必须满足几个要求:首先,它必须能够保持顶点之间的一阶近似和二阶近似;第二,它必须适应非常大的网络,比如数百万个顶点和数十亿条边;第三,它可以处理具有任意类型边的网络:有向的、无向的和/或加权的。LINE是一种新的网络嵌入模型。LINE通过保留节点的一阶接近度和二阶接近度来学习包含网络拓扑结构的表征。

PS:5、6节点之间有很多相邻节点,56有二阶接近度;67之间直接相连,一阶接近度如图所示,5、6节点之间有很多相邻节点,56有二阶接近度;67之间直接相连,一阶接近度
文献:Tang Jian, Qu Meng. LINE: large-scale information network embedding.

node2vec
通过控制遍历网络结构的顺序来学习同时包含网络宏观结构和微观结构的节点表征。
文献:Grover A, Leskovec J. node2vec: scalable feature learning for networks

AE
线性自编码器(AE),它是一种类似于 PCA 的无监督机器学习算法,最小化和 PCA 一样的目标函数。尽管自动编码器与 PCA 很相似,但自动编码器比 PCA 灵活得多。在编码过程中,自动编码器既能表征线性变换,也能表征非线性变换;而 PCA 只能执行线性变换。因为自动编码器的网络表征形式,所以可将其作为层用于构建深度学习网络。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、机器学习推荐系统课程简介伴随着大数据时代的到来,作为发掘数据规律的重要手段,机器学习已经受到了越来越多的关注。而作为机器学习算法在大数据上的典型应用,推荐系统已成为各行业互联网公司营销体系中不可或缺的一部分,而且已经带来了真实可见的收益。目前,推荐系统机器学习已经成为各大公司的发力重点,众多知名公司(如亚马逊、netflix、facebook、阿里巴巴、京东、腾讯、新浪、头条等)都在着眼于将蕴含在庞大数据中的宝藏发掘出来,懂机器学习算法的大数据工程师也成为了新时代最紧缺的人才。尚硅谷精心打造出了机器学习推荐系统课程,将机器学习理论与推荐系统项目实战并重,对机器学习推荐系统基础知识做了系统的梳理和阐述,并通过电影推荐网站的具体项目进行了实战演练。为有志于增加大数据项目经验、扩展机器学习发展方向的工程师提供最好的学习平台。二、课程内容和目标本课程主要分为两部分,机器学习推荐系统基础,与电影推荐系统项目实战。第一部分主要是机器学习推荐系统基础理论的讲解,涉及到各种重要概念和基础算法,并对一些算法用python做了实现;第二部分以电影网站作为业务应用场景,介绍推荐系统的开发实战。其中包括了如统计推荐、基于LFM的离线推荐、基于模型的实时推荐、基于内容的推荐等多个模块的代码实现,并与各种工具进行整合互接,构成完整的项目应用。通过理论和实际的紧密结合,可以使学员对推荐系统这一大数据应用有充分的认识和理解,在项目实战中对大数据的相关工具和知识做系统的回顾,并且可以掌握基本算法,入门机器学习这一前沿领域,为未来发展提供更多的选择,打开通向算法工程师的大门。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值