十二、结巴分词用于内容相似推荐
计算物品最相似的其他物品,直接用于I2I相似推荐,或者U2I2I推荐
以文章为例,进行内容相似推荐,一般需要以下几个步骤:
内容获取
- 一般包含ID、标题、介绍、详情等,存储于MySQL数据库中。批量查取这些内容,进行下一步
中文分词:提取关键词
- 中文没有空格进行分词,所以需要手动分词,使用TFIDF技术,jieba分词
- 结巴分词,中文分词组件,三种模式:全模式、精确模式、搜索引擎模式。一般用精确模式。
- 有一些词是不需要的,比如我、一些等等。结巴分词提供了关键词提取技术
- 基于TF-IDF算法的关键词提取
- import jieba.analysis
- jieba.analysis.extract_tags(sentence,topK=20,withWeight=True,allowPOS=())
- sentence:待分词的句子
- topK=20:返回20个权重最大的关键词
- withWeight=True:是否一并返回关键词的权