用户画像之建立

最新推荐文章于 2024-07-08 19:20:23 发布

cynthia_file

最新推荐文章于 2024-07-08 19:20:23 发布

阅读量44

点赞数

分类专栏：数据分析与挖掘文章标签：数据分析

本文链接：https://blog.csdn.net/cynthia_file/article/details/122392984

版权

6 篇文章 0 订阅

订阅专栏

目的：将文本等非结构化内容转化为 结构化内容存储，待将来使用

用户画像

关键词提取：TF-IDF 和 TextRank。
实体识别（序列标注问题）：人物、位置和地点、著作、影视剧、历史事件和热点事件等，常用：基于词典的方法结合 CRF 模型、隐马尔科夫模型（HMM）
内容分类：文本分类（指定分类），用分类来表达较粗粒度的结构化信息。SVM、FastText
聚类：在无人制定分类体系的前提下，无监督地将文本划分成多个类簇（聚类）。LDA(Gensim，PLDA)
主题模型：从大量已有文本中学习主题向量，然后再预测新的文本在各个主题上的概率分布情况（另一种聚类思想）
嵌入：“嵌入”也叫作 Embedding，从词到篇章，无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息，并且用有限的维度表达出来。Word2Vec

把物品的文本分析结果，按照用户历史行为把物品画像（ Item Profile ）传递给用户，与用户自己的结构化信息合并;
把用户对物品的行为，消费或者没有消费看成是一个分类问题。用户用实际行动帮我们标注了若干数据，那么挑选出他实际感兴趣的特性就变成了特征选择问题

关注