目的:将文本等非结构化内容 转化为 结构化内容存储,待将来使用
用户画像
- 所有非结构化的文本结构化,去粗取精,保留关键信息
NLP 算法,eg…
- 关键词提取:TF-IDF 和 TextRank。
- 实体识别(序列标注问题):人物、位置和地点、著作、影视剧、历史事件和热点事件等,常用:基于词典的方法结合 CRF 模型、隐马尔科夫模型(HMM)
- 内容分类:文本分类(指定分类),用分类来表达较粗粒度的结构化信息。SVM、FastText
- 聚类 :在无人制定分类体系的前提下,无监督地将文本划分成多个类簇(聚类)。LDA(Gensim,PLDA)
- 主题模型:从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况(另一种聚类思想)
- 嵌入:“嵌入”也叫作 Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。Word2Vec
- 把物品的文本分析结果,按照用户历史行为把物品画像( Item Profile )传递给用户,与用户自己的结构化信息合并;
把用户对物品的行为,消费或者没有消费看成是一个分类问题。用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就变成了特征选择问题
- 卡方检验(CHI)
- 信息增益(IG)