手把手教你用seq2seq模型创建数据产品(附代码)

目标:训练一个模型来对Github项目进行总结

85988cbf10a7a3932c964d2a0dac17a1f29040b1

矩形框中的是预测结果

以上只是从一系列预测结果中随机选取的元素,请继续往下读,下文包含一个带有更多示例的链接!

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

ff648d78c55895cf88157ef22aafda9e31783419

Github的吉祥物章鱼猫(Octocat)

起因

我从来没有想过用“神奇的”这个词来描述机器学习技术的输出结果。但当我逐渐了解可以用于图像识别(https://machinelearningmastery.com/use-pre-trained-vgg-model-classify-objects-photographs/)或者对两吨乐高积木进行分类(https://jacquesmattheij.com/sorting-two-metric-tons-of-lego)的深度学习的时候,这一切改变了。更令人惊奇的是,你不需要一个博士学位或多年的训练来释放这些技术的力量。所有你所需要的只是:不排斥写代码、达到高中数学水平和拥有足够的耐心(http://www.fast.ai/2016/10/08/overview/)

然而,在工业中使用深度学习技术的例子却少之又少。今天,我将与大家分享一个可复用的最简可行(https://en.wikipedia.org/wiki/Minimum_viable_product)产品,来演示使用深度学习从文本(Github Issues)中创造数据产品。

本教程将专注于使用Sequence to Sequence模型对Github issues上的文本进行概括,并将向您证明:

8481c8f592b7f349aa84a1de5c171db681516edf 您不需要强大的计算能力来获得合理的结果(我将使用一个GPU)。
8481c8f592b7f349aa84a1de5c171db681516edf 您不需要编写大量的代码。非常令人惊异的是,只需要几行代码就可以产生神奇的事物。
8481c8f592b7f349aa84a1de5c171db681516edf 即使你不想对文本进行概括总结,训练一个模型来完成这个任务也会有助于其他进行特征提取的任务。

我将在这篇文章中介绍:

8481c8f592b7f349aa84a1de5c171db681516edf 如何收集数据,并处理数据以为深度学习做准备。
8481c8f592b7f349aa84a1de5c171db681516edf 如何构造Sequence to Sequence模型架构,并对模型进行训练。
8481c8f592b7f349aa84a1de5c171db681516edf 如何使用模型进行推理,讨论和多个用例的演示。

我在这里提供一个端到端的示例以便你建立起一个概念上模型,而不必要深入到数学的细节之中。这里我也提供给你其他链接,让你后续可以研究得更加深入。

获取数据

如果你不熟悉Github Issues(https://guides.github.com/features/issues/),我强烈建议你先去浏览一下。具体来说,我们将要用以联系的数据是Github Issues的正文(Body)和标题(Title)。

原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值