
RS/用户画像
文章平均质量分 76
NLP/IE-情感抽取
u013250861
这个作者很懒,什么都没留下…
展开
-
用户画像、物品画像【画像就是刻画物品或用户的特征;本质上就是给用户或物品贴标签】
但另外一些特征,比如电影的内容简介、电影的影评、图书的摘要等文本数据,这些被称为非结构化数据,首先他们本应该也属于物品的一个特征标签,但是这样的特征标签进行量化时,也就是计算他的特征向量时是很难去定义的。上面提到,物品画像的特征标签主要都是指的如电影、导演、演员、图书的作者、出版社等结构化的数据,也就是他们的特征提取,尤其是体征向量的计算是比较简单的,如直接给作品的分类定义为0或1的状态。结论:TF-IDF与词语在文档中的出现次数成正比,与该词在整个文档集中的出现次数成反比。1)TF-IDF介绍。原创 2023-05-31 20:29:33 · 974 阅读 · 0 评论 -
推荐系统中常用的embedding方法
其中,���指的是节点�到节点�的距离,只有3种情况,如果又回到顶点t,那么为0;如果x和t直接相邻,那么为1;在传统机器学习模型构建过程中,经常使用one hot encoding对离散特征,特别是ID类特征进行编码,但由于one hot encoding的维度等于特征的总数,比如阿里的商品one hot encoding的维度就至少是千万量级的,而且有的特征还会增量更新,所以这样的编码方式得到的特征向量是非常稀疏的,甚至用multi hot encoding对ID特征编码也会是一个非常稀疏的向量。原创 2023-05-29 20:44:45 · 1732 阅读 · 0 评论 -
推荐系统-特征工程-离散型特征的处理:OneHotEncoder
使用上面简单的序列对分类值进行表示后,进行模型训练时可能会产生一个问题就是特征的因为数字值得不同影响模型的训练效果,在模型训练的过程中不同的值使得同一特征在样本中的权重可能发生变化,假如直接编码成1000,是不是比编码成1对模型的的影响更大。该特征总共有3个不同的分类值,此时需要3个bit位表示该特征是什么值,对应bit位为1的位置对应原来的特征的值(一般情况下可以将原始的特征的取值进行排序,以便于后期使用),此时得到独热码为{100}男性 ,{010}女性,{001}其他。原创 2023-05-05 00:08:43 · 285 阅读 · 0 评论 -
用户画像:概述【从应用角度来看,可以分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像、经济画像...】
一、 什么是用户画像 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像应该包含目标,方式,组织,标准,验证这5个方面。目标:指的是描述人,认识人,了解人,理解人。方式:又分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形原创 2023-05-04 17:47:41 · 10746 阅读 · 0 评论 -
用户画像:用户画像表
用户画像表 ADM层 每天汇总出的用户画像表仅包含当天的数据,因此还需要和之前汇总好的用户画像表进行新的合并操作后,才算真正的最新数据的用户画像表 用户画像宽表 ADM层 adm.itcast_adm_personas(时间分区) 用户画像宽表 ADM层 = 用户基本属性表 GDM层 gdm.itcast_gdm_user_basic(时间分区)(第 1 张表) + 客户消费模型表 GDM层 gdm.itcast_gdm_user原创 2023-05-04 17:35:26 · 875 阅读 · 0 评论