用户画像之建立

目的:将文本等非结构化内容 转化为 结构化内容存储,待将来使用

用户画像

  1. 所有非结构化的文本结构化,去粗取精,保留关键信息
    NLP 算法,eg…
  • 关键词提取:TF-IDF 和 TextRank。
  • 实体识别(序列标注问题):人物、位置和地点、著作、影视剧、历史事件和热点事件等,常用:基于词典的方法结合 CRF 模型、隐马尔科夫模型(HMM)
  • 内容分类:文本分类(指定分类),用分类来表达较粗粒度的结构化信息。SVM、FastText
  • 聚类 :在无人制定分类体系的前提下,无监督地将文本划分成多个类簇(聚类)。LDA(Gensim,PLDA)
  • 主题模型:从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况(另一种聚类思想)
  • 嵌入:“嵌入”也叫作 Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。Word2Vec
  1. 把物品的文本分析结果,按照用户历史行为把物品画像( Item Profile )传递给用户,与用户自己的结构化信息合并;
    把用户对物品的行为,消费或者没有消费看成是一个分类问题。用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就变成了特征选择问题
  • 卡方检验(CHI)
  • 信息增益(IG)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值