给用推荐或者分析用户兴趣,可以使用用户行为也可以利用我们网站上节目的标签进行,一个个标签可以看做对一个节目的具体描述;
可以用户通过访问不同的节目用来给用户打上兴趣标签,从而可以实现用户的标签聚类、节目推荐、标签推荐;
下面的数据以8月6日节目表和cv为例
第一步:从节目表本身观察标签情况:
总节目数:72,022,802
有标签标记的节目数:69,924,664,占比:97%,可以看出97%的节目都有标签标记
标签总数:13,586,031,平均每个标签标记5个节目
标签被使用TOP排行(节目表中聚集的标签大多由编辑给出,人为干预明显,用户标签具有一定的发散;通过标签可以很好的表明节目属性):
编号 | 标签 | 节目数 |
1 | 影视 | 3196084 |
2 | 娱乐 | 2353418 |
3 | 动画 | 731858 |
4 | 动漫 | 724920 |
5 | 搞笑 | 658204 |
6 | 音乐 | 605067 |
7 | 东方神起 | 580143 |
8 | 物流公司 | 497544 |
9 | 搬家公司 | 424254 |
10 | 货运公司 | 403647 |
11 | MV | 400536 |
12 | 货运专线 | 353209 |
13 | SJ | 322107 |
14 | 电视剧 | 302191 |
15 | 韩剧 | 292828 |
16 | 物流专线 | 284228 |
17 | 翻唱 | 275716 |
18 | 钢管舞 | 273313 |
19 | 原创 | 267915 |
20 | 自拍 | 237739 |
第二步:从用户本身观察标签情况(给用户打标签):
总用户数:25,985,533
有标签的用户数:25,643,716,占总用户数的98.7%,可以看出通过用户行为有98.7的用户可以通过标签标记
被使用标签TOP排行(通过用户可以看到人为标签的因素减少,用户的兴趣或需求更具体,更能反映热点):
编号 | 标签 | 用户数 | 标签使用次数 | 平均次数 |
1 | 搞笑 | 1047140 | 1946513 | 1.858885154 |
2 | 影视 | 867043 | 1810165 | 2.08774536 |
3 | 娱乐 | 797445 | 1478266 | 1.853752923 |
4 | 爱情公寓3 | 687796 | 1889974 | 2.747870008 |
5 | 孙杨 | 627486 | 896767 | 1.429142642 |
6 | NARUTO | 503846 | 2520309 | 5.002141527 |
7 | 活佛济公3 | 490016 | 2180128 | 4.44909554 |
8 | 电影 | 470980 | 645106 | 1.369709966 |
9 | motoluo | 448636 | 1540460 | 3.433652226 |
10 | 火影忍者 | 432686 | 1650044 | 3.813490614 |
11 | 林丹 | 410362 | 578314 | 1.409277662 |
12 | 动画 | 377562 | 904218 | 2.394886138 |
13 | 美女 | 350892 | 512759 | 1.461301483 |
14 | 恶搞 | 335593 | 510835 | 1.5221861 |
15 | 女性 | 333091 | 474276 | 1.423863149 |
16 | HunanTV | 307853 | 605931 | 1.968247833 |
17 | 伦敦奥运会 | 292765 | 514478 | 1.757307055 |
18 | 回到三国 | 289885 | 822928 | 2.838808493 |
19 | 奥运 | 277856 | 435722 | 1.568157607 |
20 | 中国好声音 | 274940 | 426027 | 1.54952717 |
第三步:通过用户标签进行用户聚类、推荐:
进行中