————自然语言处理————
文章平均质量分 93
say_c_box
小白不能不努力~
展开
-
【一起读ACL论文】Attention-over-Attention Neural Networks for Reading Comprehension
一种针对完形填空式阅读理解的模型。综合来看,大概是双向考虑了文档->提问和提问->文档的关系。思想和实现都是非常简单的,从实验结果来看效果不错。而且也容易扩展到其他模型上。整个模型如上图所示。大概分为三个部分:和传统模型类似,先把Document和Query都embedding出来(用的是GRU)。根据向量表示计算出一个矩阵表示,记为Pair-wise Matchin...原创 2018-03-31 16:27:00 · 625 阅读 · 0 评论 -
pytorch+lstm实现的pos
学了几天终于大概明白pytorch怎么用了 这个是直接搬运的官方文档的代码 之后会自己试着实现其他nlp的任务# Author: Robert Guthrieimport torchimport torch.autograd as autogradimport torch.nn as nnimport torch.nn.functional as Fimport torch.optim原创 2017-12-14 15:01:43 · 5161 阅读 · 1 评论 -
用python从一个单词列表中快速生成word_to_ix字典
#set函数创建一个无序不重复的元素集,可进行关系测试,删除重复数据。还可以计算交集,差集,并集。vocab = set(test_sentence)#enumerate函数用于将一个可遍历的数据对象组合为一个索引序列。同时列出数据和数据下标。word_to_ix = {word: i for i, word in enumerate(vocab)}原创 2017-12-19 22:04:11 · 2048 阅读 · 0 评论 -
mmseg中文分词算法的python实现及其优化
mmseg中文分词算法的python实现及其优化任务定义实现一个中文分词系统并对其性能做测试。输入输出该分词的训练语料取自人民日报1998年公开的语料库。为了保证测试的严谨性,选择另一份语料库做测试文档。该文档为SIGHAN(国际计算语言学会(ACL)中文语言处理小组)举办的国际中文语言处理竞赛中提供的pku_test_gold语料。方法描述mmseg算法理解mmseg本质上就是前向最大匹配+消除歧原创 2017-11-16 14:23:31 · 2644 阅读 · 1 评论 -
python实现的基于hmm模型的词性标注系统
python实现的基于hmm模型的词性标注系统任务定义实现一个词性标注系统,输入分好词的单词序列,输出一个词性标注后的结果序使用的语料库为人民日报98年公开语料库,一共约18000行语料。在用户交互模式下,所有语料库均用作训练。在文件读写模式下,前3000行语句用来做测试,后面的语句用来做训练。方法描述隐马尔科夫模型理解隐马尔科夫模型是结构最简单的动态贝叶斯网络。描述由一个隐藏的马尔科夫链随机生成原创 2017-11-16 14:16:58 · 10639 阅读 · 6 评论 -
基于python实现的mmseg中文分词算法实现及其优化
mmseg中文分词算法的python实现及其优化mmseg算法理解mmseg本质上个人理解就是前向最大匹配+消除歧义规则+贪心,最简单的前向最大匹配就是,将每次从起点位置能匹配到的最长词语作为分词结果,连续进行下去。前向最大匹配符合人们的习惯,但是在某些语句中会产生歧义。例如北京大学生前来应聘,由于北京大学在词库中出现,所以前向最大匹配会分成北京大学/生/前来/应聘,显然这不是正确的分词结果。那么m原创 2017-11-07 00:08:17 · 1135 阅读 · 0 评论 -
【一起读ACL】Facebook的开放式问答系统(Reading Wikipedia to Answer Open-Domain Questions)
Reading Wikipedia to Answer Open-Domain Questions这篇论文介绍了一个回答开放提问的模型。选择用维基百科中的一部分来作为答案。In order to answer any question, one must first retrieve the few relevant articles among more than 5 million items,原创 2018-04-03 21:13:35 · 1021 阅读 · 0 评论