用户画像常用方法（相关论文）

最新推荐文章于 2024-12-01 04:16:54 发布

鸡汤本汤

最新推荐文章于 2024-12-01 04:16:54 发布

阅读量3.1k

点赞数

分类专栏：推荐系统文章标签：机器学习

本文链接：https://blog.csdn.net/YangTinTin/article/details/104258505

版权

推荐系统专栏收录该内容

9 篇文章

订阅专栏

探讨了用户画像在个性化新闻推荐中的关键作用，对比基于协同过滤和基于内容的推荐方法，提出利用Twitter数据构建用户画像的新思路，及一个考虑阅读模式的用户画像扩展框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 1.英文文献
- - 1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)
  - 1.2 A Framework for Interaction-driven User Modeling of Mobile

1.英文文献

1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)

摘要：news recommendation 中使用的较多的用户画像方法是从用户读过的article获取信息，如title,text,click-through data。本文探索一种新的用户画像方法，数据来源是tweets，re-tweets，hashtags，从这些数据中提取keywords 来构建用户画像。（数据来源的创新）
1. introduction：在推荐的两种方法（基于协同过滤的推荐和基于内容的推荐）中，一般来说基于协同过滤的方法比基于内容的方法表现好。但在一些特定的领域如news recommendation领域，基于内容的方法要优于协同过滤方法。原因（1）在news recommendation中，如果要将新的news推荐给用户，协同过滤方法不能马上推荐，需要先等待用户点击news以产生点击记录，然后才能推荐给其他用户，在news recommendation中，对news的实时性有要求，使用协同过滤方法不能实时地把news推荐给用户。而基于内容的方法可实时推荐，不需要等待。
（2）基于协同过滤的方法存在“cold start”问题，当一些news不存在点击记录时，不能将news推荐给用户。而基于内容的方法不存在item的冷启动问题。
2.related work：本文使用了topic model 和tfidf.其中使用topic model来比较news title的相似性。
3.proposed method：news recommendation的步骤有两个。（1）user profile （2）news ranking。本文围绕这两个部分展开，先进行用户画像，再进行news的推荐。

1.2 A Framework for Interaction-driven User Modeling of Mobile

（提出了一个扩展用户画像的框架（创新1）–>考虑用户的阅读模式，即作者提出来的6个要素，接着用几种方法（求解方法无创新）来求解这些要素，设计了一个app来收集用户阅读模式相关数据。
并没有通过用户的阅读模式6要素来进行推荐。）
摘要：在news推荐中，用户读了哪些内容对于推荐效果来说是重要的（用户兴趣）（多数研究使用的方式），用户以某种模式浏览、阅读内容（如阅读频率，阅读的类别分布等）（阅读模式）（交互习惯和偏好）（少有研究考虑）也同样重要。
作者提出了一个框架来扩展用户画像，这个框架用以对阅读模式模式进行建模（此框架并不对用户兴趣进行建模）。在进行扩展画像过程中使用了多种方法，如：推测、变换函数、有监督学习方法。
贡献（1）对用户画像进行扩展。（2）在多种方法上对提出的用户画像进行测试，并讨论此用户画像如何应用在个性化新闻推荐app中。
our work：很多推荐算法（如协同过滤、基于内容的算法、混合算法）被提了出来，但对用户阅读模式进行建模的算法还比较少。
在我们之前的work中，我们识别出了三种用户类型，在以前work的基础上，我们提出了层次框架模型，能够分析mobile-sensing数据，以进行用户建模。层次框架过程如下：手机原始数据、简单处理变成low-level特征、函数变换转化成用户画像中阅读模式6要素。
六要素如下：
频率：一天之中多少次阅读？
花费时间：花费在新闻阅读中的时间？（1小时？2小时？）
阅读时间段：喜欢在哪个时间段阅读？（早上、中午，晚上？）
阅读习惯：粗读？细读？
浏览策略：从某一板块选择点击新闻？浏览全部板块点击新闻？（计算两个指标，一个是用户在所有会话中都浏览过的新闻类型（代表着用户的类型偏好），另一个是用户指在某个回话中点击过的新闻类型（代表着用户是只浏览了少数类型还是浏览了多数类别），从而知道用户的浏览策略。）
地点：家中？单位？室外？
4、buiding user profile:
4.1 data collection：作者为了测试自己提出的算法，设计了一个APP–Habito News,在谷歌软件商店中上架，主要对象是大学生社交网络写手，但因为软件已上架，也不排除有其他的一些人员。作者最终选定了47名用户。（用户至少要使用这个app两周，这样才能收集足够的数据。）用户阅读模式建模所需要的数据都来自于这个app。
app用户在安装Habito News时会被要求填一个表格和做一个问卷。表格包括性别、年龄等人口统计学信息。问卷包括了以下6个问题（每个问题是单项选择）：
(1) How often do you read news on your mobile device? [a.
Many times b. Once c. Occasionally]
(2) How much time a day do you spend reading news on
your mobile device? [a. 0-5 min b. 5-10 min c. 10+ min]
(3) How do you look for stories of interest? [a. All b. Particular c. Both]
(4) How do you read a news story? [a. Detailed b. Skimming c. Scanning]
(5) Where do you often read news? [a. Home b. Work c.
Public Transport]
(6) What time of the day do you usually read news? [a.
Morning b. Afternoon c.Evening]
这6个问题对应着6个用户阅读模式factor。
4.2 modeling the six factors
对于频率、阅读时间、阅读时间段，可以比较容易地得出来，但对于其余三个factors，作者使用三种方法进行学习，前两种方法效果没有baseline（在类别中，全都预测为最多的那一类）好，第三种是监督学习方法，对3个factor中的每一个都训练一个随机森林（RF）分类器。
分类的结果：
在这里插入图片描述
4.2.1 Preparing the datasets for the analysis：
收集到的数据存在“缺失值”，地理位置没有缺失值，但其余的数据可能具有缺失值，因为用户是根据自己的需求来阅读新闻。刚开始选择了47个用户，有些用户缺乏必要的值，删去了，还剩33个用户。还有些用户下载软件不久就卸载了，这样的用户也删除。最后，作者的数据包括198天的数据（所有用户的天数加在一起），103个特征字段。