NLP
Carina_Cao
这个作者很懒,什么都没留下…
展开
-
基于检索的聊天机器人之TripleNet
多轮对话中基于检索的聊天机器人主要用于特定情景的聊天回复。 TripleNet源码地址https://github.com/wtma/TripleNet TripleNet论文地址https://www.aclweb.org/anthology/K19-1069.pdf 数据集 TripleNet的数据集分别有douban corpus(中文)和ubuntu corpus(英文),由于我们不训练英文模型,这里只介绍douban corpus。 douban corpus douban corpus可分为三部原创 2020-09-11 15:21:03 · 344 阅读 · 0 评论 -
关键词提取
关键词提取 技术调研 目前比较常用的关键词提取算法都是基于无监督算法。对数据的要求低,不需要人工标注语料辅助训练。如TF-IDF算法和TextRank算法。 TF-IDF算法 TF-IDF是一种数值统计方法,用于反映一个词对于预料中某篇文档的重要性,它的主要思想为:如果某个词在一篇文档中出现的频率高,即TF高;并且在其他文档中很少出现,即IDF高,则认为这个词具有很好的类别区分能力。 TextRank算法 此种算法的一个重要特点是可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。基本思想来原创 2020-09-11 15:01:57 · 488 阅读 · 0 评论