自然语言处理
ONLY&YOU
计算机前后台开发
展开
-
双数组树过程理解(Double-arrayTrie)
目录简介双数组的定义双数组树的构建理解参考资料简介双数组字典树由日本人Jun-Ichi Aoe在1989年提出,它由base和check两个数组组成,状态转移的复杂度为常数。这两个数组里面存在的内容为链接数组的下标,但是为了节约空间,在数据定义以及存储上各有千秋,除非看最原始的实现方式,否则各个博客中或者教程中的版本各有那么一点的不同,而本节就是其中的一种方式。双数组的定义原始的双数组定义...原创 2020-04-26 11:45:49 · 1157 阅读 · 0 评论 -
中文分词评测方法
目录中文分词评测方法步骤参考资料中文分词评测方法对于分词,目前有很多开源的程序,包括hanlp、jieba、哈工大分词等。为了确定哪种分词结果比较好,通常有两种方式,一种是调用接口,对特定的句子分词,通过感觉对分词结果进行对比,但这种分词结果却带有了很大的主观色彩。在网上也是博客在介绍。另一种则通过测试集对分词结果与标准的分词进行分析,得出准确率、召回率等。步骤开放的测试集选取一般测...原创 2020-04-16 17:11:49 · 1201 阅读 · 0 评论 -
MatchZoo简单使用
MatchZoo简单使用简介安装模型运行Quick StartMatchZoo Quick StartDefine TaskPrepare DataPreprocessingBuild ModelTrain, Evaluate, PredictA Shortcut to Preprocessing and Model BuildingSave and Load the Model简介最近在调研...原创 2019-11-12 14:36:23 · 7785 阅读 · 5 评论 -
关于google深度学习框架中PTB数据的batch方法中参数的理解
简介在《实战google深度学习框架》中的9.2.2节中,介绍了如何对文本数据进行batching的方法,主要包含两种,一种是填充式(padding),另一种则是batching方法。为了方便查看代码中的参数的含义,这里做一下简单的记录。内容代码中的各参数如下图所示:说明:在图中,假设数据为data_size=100,batch_size的大小为4,每个batch中截取的片段包...原创 2019-06-29 11:48:47 · 602 阅读 · 0 评论