推荐系统05:从文本到用户画像有多远

本文介绍了如何从大量文本数据中构建用户画像。首先,文本需要结构化,通过TF-IDF、TextRank等算法提取关键信息。接着,根据用户行为将结构化信息传递给用户,合并形成用户画像。文章详细讲解了结构化文本的多种方法,如关键词提取、实体识别、内容分类、聚类和词嵌入,并提到了标签选择的卡方检验和信息增益等方法。
摘要由CSDN通过智能技术生成

前面,我和你聊过了不要把用户画像当成银弹,也不要觉得一无是处。对于一个早期的推荐系统来说,基于内容推荐离不开为用户构建一个初级的画像,这种初级的画像一般叫做用户画像(User Profile),一些大厂内部还习惯叫做 UP,今天我就来讲一讲从大量文本数据中挖掘用户画像常常用到的一些算法。

从文本开始

用户这一端比如说有:

  1. 注册资料中的姓名、个人签名;
  2. 发表的评论、动态、日记等;
  3. 聊天记录(不要慌,我举个例子而已,你在微信上说的话还是安全的)。

物品这一端也有大量文本信息,可以用于构建物品画像( Item Profile ),并最终帮助丰富 用户画像(User Profile),这些数据举例来说有:

  1. 物品的标题、描述;
  2. 物品本身的内容(一般指新闻资讯类);
  3. 物品的其他基本属性的文本。

文本数据是互联网产品中最常见的信息表达形式,数量多、处理快、存储小,因为文本数据的特殊地位,所以今天我专门介绍一些建立用户画像过程中用到的文本挖掘算法。

构建用户画像

要用物品和用户的文本信息构建出一个基础版本的用户画像,大致需要做这些事:

1. 把所有非结构化的文本结构化,去粗取精,保留关键信息;
2. 根据用户行为数据把物品的结构
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾牛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值