首先,要了解标签的概念
标签是人工定义的、高度凝练的特征表示。标签有两个特点:语义化和短文本。语义化指的是容易理解,短文本指的是标签本身不需要进行过多文本分析等预处理工作,可以直接参与特征提取等。
以电影推荐为例,某个用户的标签可以是:女、大学生、泰坦尼克号、莱昂纳多、爱情片。这里面的每一个词语都是一个用户标签。
这些标签是怎么来的呢?自己根据内容提炼?这样明显不够标准,每个人打标签的标准不一样。比如,在电影推荐领域,爱情片和爱情电影表达的是同样的意思,但有的人打的标签是爱情片,有的是爱情电影。所以,
给用户打标签首先要有一个标准的标签体系
这就涉及本体的概念,本体一般包括类、属性、实例、公理、推理规则。在实际应用中,要根据不同场景构建用户画像需要用到的领域词汇表、定义类、定义属性等。
标签既可能对应本体中的实例,也可能对应本体中的属性。如,在电影推荐中,“电影”就是一个类,“泰坦尼克号”是“电影”这个类的实例,“爱情片”是“泰坦尼克号”这个实例的属性。“泰坦尼克号”、“爱情片”都可以作为用户的标签。
参考书目《用户网络行为画像》牛温佳 刘吉强 石川等著