推荐系统中多值特征的八大处理技巧

本文探讨了多值特征在数据处理中的挑战,包括论文关键字、商品描述等,列举了8种处理方法:Count、LabelEncoder、Multi One-Hot、CounterVector、TfidfVectorizer、Word2Vec、基础Multi-Value Embedding和加权Multi-Value Embedding。这些技巧对理解和处理这类特征提供了解决思路。
摘要由CSDN通过智能技术生成

在诸多数据处理的问题中,存在着一类特殊的特征--多值特征,该类特征常见的情形有:

  • 论文的关键字描述信息;
  • 商品信息的描述;
  • 网站关键词;
  • 其它情况;

那么关于这些多值特征,该如何处理,都有哪些常见操作呢?本文我们介绍多值特征的8大处理技能,希望对大家有所启发和帮助。

  1. Count
  2. LabelEncoder
  3. Multi One-Hot
  4. CounterVector
  5. TfidfVectorizer
  6. Word2Vec
  7. 基础Multi-Value Embedding
  8. 加权Multi-Value Embedding

v2-b81186d10ed639c451ee7f3451adf680_b.jpg

此处我们介绍几种最为常见的多值特征的处理技巧。

v2-0b41e34d95b13ea82d763263dc4f2fec_b.jpg

即计算多值特征中有多少个值。

v2-fd1867085252b7a72e93c1d14643c593_b.jpg

如果特征存在明显的聚集效应,很多多值特征组合在一起就是一个有意义的信息,例如,

  • 文章关键词里面的:SVM|监督学习;
  • 商品里面的,女生|连衣裙;

等等,这些词组合在一起就是很有意义的一类信息,可以直接LabelEncoder进行编码;

v2-85bdae431aa1c1dad7636e7cbea05901_b.jpg

这个不用多说了,就是每个不同的值对应一列特征,出现了就是1没出

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值