主题模型在信息提取中体会

最近在探索热点数据摘要生成,应用除seq2seq其他的方法,把一些经验记录一下。总体来说提起的信息不全,流畅度也不好,但可以实现语义表示和语义匹配信息,极力推荐百度开源的Familia。也有其他的开源工具例如lightLDA,笔者没有尝试。文档的主题分布可以用来做优质新闻及劣质新闻的分类,根据主题分布来确认文章的熵值,进一步确定文章的丰富程度。有了文档的稀疏表示可以实现文本的聚类。根据simhash可以实现主题的hash表示,用于冗杂主题去重。
每一个主题下面的词进行hash话,1001,1对应着+,0对应这-,乘以各个词在主题下面的权重,累加和就是主题的hash表述。文档的主体向量表示,通过主题降维乘以主题向量矩阵就是最终的向量表述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值