推荐系统05：从文本到用户画像有多远

曾牛

于 2021-05-25 16:53:25 发布

阅读量191

点赞数

分类专栏：推荐系统从入门到深入

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28286027/article/details/117259738

版权

推荐系统从入门到深入专栏收录该内容

31 篇文章 77 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了如何从大量文本数据中构建用户画像。首先，文本需要结构化，通过TF-IDF、TextRank等算法提取关键信息。接着，根据用户行为将结构化信息传递给用户，合并形成用户画像。文章详细讲解了结构化文本的多种方法，如关键词提取、实体识别、内容分类、聚类和词嵌入，并提到了标签选择的卡方检验和信息增益等方法。

摘要由CSDN通过智能技术生成

前面，我和你聊过了不要把用户画像当成银弹，也不要觉得一无是处。对于一个早期的推荐系统来说，基于内容推荐离不开为用户构建一个初级的画像，这种初级的画像一般叫做用户画像（User Profile），一些大厂内部还习惯叫做 UP，今天我就来讲一讲从大量文本数据中挖掘用户画像常常用到的一些算法。

从文本开始

用户这一端比如说有：

注册资料中的姓名、个人签名；
发表的评论、动态、日记等；
聊天记录（不要慌，我举个例子而已，你在微信上说的话还是安全的）。

物品这一端也有大量文本信息，可以用于构建物品画像（ Item Profile ），并最终帮助丰富用户画像（User Profile），这些数据举例来说有：

物品的标题、描述；
物品本身的内容（一般指新闻资讯类）；
物品的其他基本属性的文本。

文本数据是互联网产品中最常见的信息表达形式，数量多、处理快、存储小，因为文本数据的特殊地位，所以今天我专门介绍一些建立用户画像过程中用到的文本挖掘算法。

构建用户画像

要用物品和用户的文本信息构建出一个基础版本的用户画像，大致需要做这些事：

1. 把所有非结构化的文本结构化，去粗取精，保留关键信息；

2. 根据用户行为数据把物品的结构

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
推荐系统05：从文本到用户画像有多远

前面，我和你聊过了不要把用户画像当成银弹，也不要觉得一无是处。对于一个早期的推荐系统来说，基于内容推荐离不开为用户构建一个初级的画像，这种初级的画像一般叫做用户画像（User Profile），一些大厂内部还习惯叫做 UP，今天我就来讲一讲从大量文本数据中挖掘用户画像常常用到的一些算法。从文本开始用户这一端比如说有：注册资料中的姓名、个人签名；发表的评论、动态、日记等；聊天记录（不要慌，我举个例子而已，你在微信上说的话还是安全的）。物品这一端也有大量文本信息，可以用于构建物品画像（ It.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

曾牛 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。