如何计算给定一个unigram语言模型_语言模型

最新推荐文章于 2021-01-15 19:25:42 发布

肖彻

最新推荐文章于 2021-01-15 19:25:42 发布

阅读量141

点赞数

文章标签：如何计算给定一个unigram语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35339622/article/details/112868955

版权

目前机器学习，尤其是因为深度学习的一波小高潮，大家对使用深度学习处理文本任务，兴趣浓厚，数据是特征提取的天花板，特征提取是深度学习的天花板。在缺少语料的情况下，评价算法和研究都很难着手，在调研了众多语料之后，深知高质量的开放语料十分稀少，比如百度开放的Web QA 1.0 语料，包含的问题也就是四万余条，而分成不同的垂直领域，就根本不能用于FAQ模型的训练，这就是我做了这个语料的原因 - 支持常见问题集模型的算法评测和研究。我将通过两篇文章来分享这个语料：(1) 语料介绍, 介绍语料的组成; (2) 使用案例，介绍一个简单使用该语料进行深度学习训练的案例，可以作为 baseline。

该语料库包含从网站Insurance Library 收集的问题和答案。

据我们所知，这是保险领域首个开放的QA语料库：

该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。所以这是一个具有真正价值的语料，而不是玩具。

在上述论文中，语料库用于答复选择任务。另一方面，这种语料库的其他用法也是可能的。例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。

数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加label。所以，"问答对语料"可以直接对接机器学习任务。如果对

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何计算给定一个unigram语言模型_语言模型

目前机器学习，尤其是因为深度学习的一波小高潮，大家对使用深度学习处理文本任务，兴趣浓厚，数据是特征提取的天花板，特征提取是深度学习的天花板。在缺少语料的情况下，评价算法和研究都很难着手，在调研了众多语料之后，深知高质量的开放语料十分稀少，比如百度开放的Web QA 1.0 语料，包含的问题也就是四万余条，而分成不同的垂直领域，就根本不能用于FAQ模型的训练，这就是我做了这个语料的原因 - 支持常见...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。