主题模型︱几款新主题模型——SentenceLDA、CopulaLDA、TWE简析与实现

最新推荐文章于 2024-08-19 20:14:18 发布

悟乙己

最新推荐文章于 2024-08-19 20:14:18 发布

阅读量1.8w

点赞数 5

分类专栏： NLP︱相关技术跟踪付费-智能写作专栏文章标签： github 主题模型 LDA Familia

本文链接：https://blog.csdn.net/sinat_26917383/article/details/75193793

版权

付费-智能写作专栏同时被 2 个专栏收录

33 篇文章 710 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

NLP︱相关技术跟踪

23 篇文章 12 订阅

订阅专栏

本文介绍了百度开源的Familia项目，它提供了LDA、SentenceLDA和Topical Word Embedding(TWE)三种主题模型。TWE包括TWE-1、TWE-2、TWE-3，与skip-gram结构有别，并在多标签文本分类中表现出高精确度。SentenceLDA是LDA的扩展，考虑了句子内单词的依赖性。文章通过对比实验展示了SentenceLDA在语义表示和文本分类上的优势。

摘要由CSDN通过智能技术生成

百度最近开源了一个新的关于主题模型的项目。文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent
Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。
.

一、Familia简介

帮Familia，打个小广告~ Familia的github
主题模型在工业界的应用范式可以抽象为两大类: 语义表示和语义匹配。

语义表示 (Semantic Representation)
对文档进行主题降维，获得文档的语义表示，这些语义表示可以应用于文本分类、文本内容分析、CTR预估等下游应用。
语义匹配 (Semantic Matching)

计算文本间的语义匹配度，我们提供两种文本类型的相似度计算方式:

- 短文本-长文本相似度计算，使用场景包括文档关键词抽取、计算搜索引擎查询和网页的相似度等等。
- 长文本-长文本相似度计算，使用场景包括计算两篇文档的相似度、计算用户画像和新闻的相似度等等。

Familia自带的Demo包含

了解本专栏

超级会员免费看

悟乙己

关注

5
点赞
踩
39

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录