![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 79
SYSU_BOND
这个作者很懒,什么都没留下…
展开
-
中文实体识别数据集
中文命名实体识别数据集1. 微软实体数据集数据集简介:MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 2006的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类。数据集详情:名称规模创建日期单位论文下载评测MSRANER训练集46364个句子,验证集4365个句子2006年微软亚洲研究院链接链接链接基于该数据集发表的论文:Zhang原创 2021-07-03 02:00:02 · 8722 阅读 · 2 评论 -
中文词性标注数据集
中文词性标注数据集1. Chinese Treebank X.0 (CTBX)数据集简介:由LDC构建的中文树库。CTBX中X表示版本,随着版本数据规模扩大,以及部分标准修正。CTB1标注数据来自新华日报;CTB2对CTB1进行部分纠正以及进行发布;CTB4标注数据来自新华日报、香港政府新闻处发布的新闻、以及台湾Sinorama magazine;CTB5标注数据来源同CTB4,对规模进行扩大;CTB6增加了来自广播节目的标注数据;CTB7增加了广播新闻、微博数据、以及广播电视谈话类节目数据;CT原创 2021-07-03 01:58:54 · 2846 阅读 · 2 评论 -
分词数据集
分词数据集1. SIGHAN 2005数据集数据集简介:SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。数据集详情:名称规模创建日期单位论文下载评测MSR2368391词,4050469字2005年微软亚洲研究院原创 2021-07-03 01:57:40 · 3219 阅读 · 0 评论 -
开源词典收集
新华字典基于GitHub项目中的词库+成语,构成30W词典https://github.com/pwxcoo/chinese-xinhua搜狗词库搜狗统计得到的15W高频词,并标注常用词性https://www.sogou.com/labs/resource/w.php清华词库【多领域词库】IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库http://thuocl.thunlp.org/中文缩写词库htt原创 2021-05-29 01:01:05 · 1565 阅读 · 0 评论 -
Attention总结
Global Attention:传统的Attention model一样。所有的hidden state都被用于计算Context vector 的权重,即变长的对齐向量at,其长度等于encoder端输入句子的长度。结构如图所示。在t时刻,首先基于decoder的隐状态ht和源端的隐状态hs,计算一个变长的隐对齐权值向量at,其计算公式如下:计算Attention Score计算方式:Soft/Hard Attention:上述即为Soft Attention,Hard Atte原创 2021-05-29 00:53:35 · 430 阅读 · 0 评论 -
LSTM的加速算法:QRNN和SRU
LSTM介绍及加速原理LSTM的公式可以表示如下所示,其中分别表示输入门,输出门,遗忘门。对LSTM还不熟悉的同学可以先阅读:理解LSTM网络或者直接阅读Christopher Olah 的原博文:Understanding LSTM Networks从上述公式中,我们先来分析公式中各个部分的计算复杂度,记和的大小为,则大小也是,W的大小为:矩阵乘法【即式中标红部分】:次乘法 表...原创 2019-09-22 21:15:24 · 7298 阅读 · 1 评论 -
神经语言模型相关论文整理
语言模型现已广泛应用于自然语言处理的多个领域,具有广阔的应用前景,尤其是近两年通用语言模型在多个自然语言处理任务的应用中获得了显著的提升,更是让我们看到语言模型的广阔应用场景。基于神经网络的语言模型是当前效果最好,也是当前应用最为广泛的模型之一,在本文将介绍神经网络语言模型中的一些代表性工作。2000年,徐伟等人首次提出使用神经网络训练语言模型,提出一种使用前馈神经网络构建二元语言模型的方法...原创 2019-09-14 18:59:14 · 958 阅读 · 0 评论 -
层次Softmax相关论文整理
Softmax函数是逻辑函数的一种推广,广泛应用于神经网络的多分类问题中,然而其计算复杂度与类别大小呈线性关系,在应用于语言模型、机器翻译时会带来高额的计算量,故而不少研究尝试寻找其高效的近似方法,层次Softmax便是其中一种常用的方法,本小节中将介绍层次Softmax中的一些代表模型。1992年,Brown等人在论文《Class-based n-gram models of natural...原创 2019-09-14 17:31:44 · 4849 阅读 · 0 评论 -
论文阅读:Long Short-Term Memory Neural Networks for Chinese Word Segmentation【2015】
意义:首次使用LSTM用于中文分词【之前的方法大多基于局部上下文对标注进行预测,并未能很好使用长距离信息,详情看后续阐述】 调研了多种在LSTM中的dropout的应用 【现在去看感觉这篇文章工作意义不大】Previous Methods前馈神经网络分词:把上下文进行concate后,经由线性分类器标注模型LSTM-1:使用单层LSTM LSTM-2:使用双层LS...原创 2019-09-09 00:27:35 · 986 阅读 · 0 评论 -
论文阅读:Deep Neural Networks with Multitask Learning(多任务模型应用到自然语言处理)
文章摘要文章讲述一个使用基于单一卷积神经网络的多任务学习模型,可以给一个句子输出预测一系列语法或语义上的输出:如词性标注、命名实体识别、语言角色,语义相近的单词,自然语言模型(句子有意义的概率)。所有这些任务上使用一个网络实现权重共享,即一个多任务学习实例。除了语言模型,所有的任务都使用打标签的数据,这样的组合代表了一个通过共享任务的进行半监督学习形式【语言模型是无监督的,而其他任务有监督】。文中...原创 2018-04-02 13:08:18 · 3172 阅读 · 2 评论 -
自然语言处理深度学习方向博文整理
《基于神经网络的词和文档语义向量表示方法研究》来自 <http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F> 机器学习相关数据集https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research Deep Learning in NL...原创 2018-04-02 10:40:48 · 416 阅读 · 0 评论