DeepLearning4J入门——让计算机阅读《天龙八部》

本文介绍了如何使用DeepLearning4J(简称DL4J)进行Word2Vector模型训练,以《天龙八部》为数据源,通过分词、模型构建和训练,实现计算机对文本的理解和相关词汇检索。首先,设置开发环境和准备数据,接着进行分词和格式转换,再利用DL4J构建并训练Word2Vector模型,最后测试模型并输出相关结果。
摘要由CSDN通过智能技术生成

很早在实验室就看见钱宝宝用Google的Word2Vector来阅读《天龙八部》并找出与指定词最相关的几个词,最近正好学习新出的深度学习开源项目DeepLearning4J,于是就拿这个例子来练手吧。DL4J快速入门请看 http://deeplearning4j.org/quickstart.html 。

DeepLearning4J的Example中自带了很多应用实例,Word2Vector也在其中,因此我的工作主要是以下几步:

1.    准备开发环境和原始数据

2.    分词,格式转换

3.    构建Word2Vector模型并训练

4.    测试并输出

 

一.     准备开发环境和原始数据

开发环境我使用的是IDEA(用eclipse也OK),JDK1.7,Maven3.3.1。

上武侠小说网下载一篇《天龙八部》,去掉文件首尾的不相关信息,重命名放到指定位置,OK。

二.     分词、格式转换

我比较喜欢使用复旦NLP,一是用惯了熟练,二是使用起来也方便,Maven引用FNLP有一点小问题,解决方法可以参考我以前的文章,这里不再赘述。

新建Java工程(或者直接使用DL4J-example工程),新建JavaClass,命名为FudanTokenizer:

package edu.zju.cst.krselee.example.word2vector;

/**
 * Created by KrseLee on 16/7/20.
 */

    import org.fnlp.nlp.cn.tag.CWSTagger;
    import org.fnlp.util.exception.LoadModelException;

    import java.io.IOException;
    import java.util.List;

    import org.fnlp.ml.types.Dictionary;
    import org.fnlp.nlp.corpus.StopWords;

public class FudanTokenizer {

    private CWSTagger tag;

    private StopWords sto
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值