context2vec 系统分析

一、context2vec项目地址:https://github.com/orenmel/context2vec

二、测试数据集:

     ukWaC:http://wacky.sslmit.unibo.it/doku.php?id=corpora

     具体获得下载链接,需要发邮件问语料的制作方要;一封邮件过去,对方很乐意的给了下载链接,再次表示感谢。

三、数据预处理:

     根据论文要求,用于训练的语料要求是每一句一行,遇到的问题如下:

     1、如何界定 句:从获得语料看,一句是 分号(,)、句号(.)  截断的字符串?这个粒度的定义需要明确

          这里就使用 句号(.) 截断的字符串作为一句话,放到语料中的一行;然后去除所有其他的分句符。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值