【每周一文】Clustering Users in Twitter Based on Interests(2012)-CSDN博客

本文链接：https://blog.csdn.net/fangqingan_java/article/details/50900784

概述

用户聚类在个性化推荐、市场分析等领域都很重要，特别是对千万级用户群体分析，单个用户的行为通常都是稀疏的。该文介绍了针对Twitter或者微博上的用户进行聚类，结果对于10亿级别的用户群可以聚合成400个类。
该文主要提到的思路是：
1. 根据用户阅读内容特征和社交特征，计算用户的相似度，可以用于相似度计算的特征包括推文信息、标签、关注信息以及转发特征。
2. 根据用户相似度，通过传统的K-means进行用户聚类。

问题求解

主要过程，包括
1. 根据多种策略计算用户相似度
* 文本相似度
* 嵌入URL相似度
* 加权相似度
* 关注相似度
* 转发相似度
2. 用户相似度聚合
3. kmeans算法进行用户聚类

用户相似度计算

文本相似度

思路将用户发表过的推文进行聚合，用户看做文档，聚合的推文关键词利用LDA算法可以得到用户在潜在主题上的分布。

用户相似度

s i m t e x t (i, j) = 1 ( \sqrt D j s ( i , j ) ) D j s (i, j) = 1 2 (D k l (U T i | | M) + D k l (U T j | | M)) M = 1 2 (U T i + U T j)

$sim_{text}(i,j)=\frac 1{\sqrt(D_{js(i,j)})} \\ D_{js(i,j)}=\frac12(D_{kl}(UTi||M)+D_{kl}(UTj||M))\\ M=\frac12(UTi+UTj)$
其中D_kl为两个分布的Jessen-shanon 离散度。
通常也可以直接计算两个分布的余弦相似度进行计算

URL相似度

这里的URL通常指嵌入在推文中的URL，可以分析该URL的标签、正文等特征数据，套用文本相似度计算方法得到 $sim_{url}$

标签相似度

通常计算标签相似度可以利用jaccard系数等，这里提出

s i m h a s h t a g s (i, j) = \sum k = 1 n (1 - | N i k | H i | - N j k | H j | |) (N j k + N i k | H j | + | H i |)

$sim_{hashtags}(i,j)=\sum_{k=1}^n(1-|\frac{N_{ik}}{|Hi|}-\frac{N_{jk}}{|Hj|}|)(\frac{N_{jk}+N_{ik}}{|Hj|+|Hi|})$ 其中Nik表示用户i的第k个标签出现的次数。
该思路相当于对jaccard系数进行了加权，消除了单个标签权重的影响。

关注相似度

计算公式如下

s i m f o l l o w = c f r i e n d F r i e n d i - - - - - - - \sqrt F r i e n d j - - - - - - - \sqrt + c f o l l o w e r F o l l o w e r i - - - - - - - - \sqrt F o l l o w e r j - - - - - - - - \sqrt

$sim_{follow}=\frac{c_{friend}}{\sqrt{Friend_i}\sqrt{Friend_j}}+\frac{c_{follower}}{\sqrt{Follower_i}\sqrt{Follower_j}}$
其中Friend表示用户关注的用户群；Follower是关注该用户的用户群；C是指两个用户共通用户群。