- 博客(47)
- 资源 (3)
- 收藏
- 关注

原创 中文实体识别数据集
中文命名实体识别数据集1. 微软实体数据集数据集简介:MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 2006的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类。数据集详情:名称规模创建日期单位论文下载评测MSRANER训练集46364个句子,验证集4365个句子2006年微软亚洲研究院链接链接链接基于该数据集发表的论文:Zhang
2021-07-03 02:00:02
11111
2
原创 MacOS安装zeal及第三方docsets下载
MacOS安装Zeal和使用第三方docsets的教程,Zeal是Dash的一种平民替代,自行编译无需付费
2023-07-04 10:58:36
1233
原创 多模匹配及其实现相关资料
百度博客分享的多模匹配算法资料1. 方法:基于双数组实现Tried树优点:能节省大量空间占用查询基于数组索引,速度非常快不用像AC自动机一样还需构建fail指针,构建速度相对AC自动机要快,且可以快速删除或添加单词,保留一定的灵活性缺点:因为没有像AC自动机等算法进行穿线改进,故而全匹配算法需要回溯,性能有所下降建树比非双数组结构的Tried树要慢相关资料:dictmatch及多模算法串讲 (一)dictmatch及多模算法串讲 (二)dictmatch及多模算法串讲——简介
2022-04-20 00:40:11
541
原创 Docker常用指令
# 登陆registrysudo docker login --username [username] --password [password] [registry url]# 拉取镜像docker pull [registry url]/[namespace]/[repo]:[tag]# 运行实例 带GPUdocker run -itd --gpus all --name mydocker -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e N
2021-10-25 17:37:35
155
原创 VIM配置
1. 中文支持GBK等编码set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936set termencoding=utf-8set encoding=utf-8
2021-10-09 10:42:38
138
原创 Python发布自己的工具包
定义setup.pyimport setuptoolswith open("README.md", "r") as fh: long_description = fh.read()setuptools.setup( name="LAC", version="0.1.0", author="Baidu NLP", author_email="nlp@ba...
2021-09-27 23:44:40
295
原创 Python添加自己的代码模块
1 Python代码中临时添加,该代码模块执行后结束import syssys.pathsys.path.append(path) 2 使用.pth文件永久添加在Python包下的site-packages 文件中创建 .pth文件,将模块的路径写进去,一行一个路径,.pth文件也可以使用注释,示例如下# .pth file example~/workspace/utils/~/workspace/tools/3 使用PYTHONPATH环境变量,路径会自动加入到sys.path中,并
2021-09-27 23:41:27
883
原创 中文词性标注数据集
中文词性标注数据集1. Chinese Treebank X.0 (CTBX)数据集简介:由LDC构建的中文树库。CTBX中X表示版本,随着版本数据规模扩大,以及部分标准修正。CTB1标注数据来自新华日报;CTB2对CTB1进行部分纠正以及进行发布;CTB4标注数据来自新华日报、香港政府新闻处发布的新闻、以及台湾Sinorama magazine;CTB5标注数据来源同CTB4,对规模进行扩大;CTB6增加了来自广播节目的标注数据;CTB7增加了广播新闻、微博数据、以及广播电视谈话类节目数据;CT
2021-07-03 01:58:54
3418
2
原创 分词数据集
分词数据集1. SIGHAN 2005数据集数据集简介:SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。数据集详情:名称规模创建日期单位论文下载评测MSR2368391词,4050469字2005年微软亚洲研究院
2021-07-03 01:57:40
4438
原创 智能指针原理
常规指针可能会出现悬垂指针。当一个指针复制到另一个指针,两个指针指向同一个对象,当一个指针删除对象时,另一个指针不知道,所以出现悬垂指针。即使使用默认合成复制构造函数也会出现,类本身无法避免。C++ 常见内存问题:缓冲区溢出 悬垂指针/野指针 重复释放 内存泄漏 不配对的new[]/delete智能指针:较好解决上述问题加入了引用计数:引用计数跟踪该类有多少对象共享同一指针。当引用计数为0 时,删除对象。创建新类时,初始化指针并将引用计数置为1;进行复制时,增...
2021-05-29 01:10:41
175
原创 开源词典收集
新华字典基于GitHub项目中的词库+成语,构成30W词典https://github.com/pwxcoo/chinese-xinhua搜狗词库搜狗统计得到的15W高频词,并标注常用词性https://www.sogou.com/labs/resource/w.php清华词库【多领域词库】IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库http://thuocl.thunlp.org/中文缩写词库htt
2021-05-29 01:01:05
1840
原创 Attention总结
Global Attention:传统的Attention model一样。所有的hidden state都被用于计算Context vector 的权重,即变长的对齐向量at,其长度等于encoder端输入句子的长度。结构如图所示。在t时刻,首先基于decoder的隐状态ht和源端的隐状态hs,计算一个变长的隐对齐权值向量at,其计算公式如下:计算Attention Score计算方式:Soft/Hard Attention:上述即为Soft Attention,Hard Atte
2021-05-29 00:53:35
589
原创 基于卷积注意力神经网络的命名实体识别(CAN-NER)
CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition(NAACL-HLT 2019)
2021-05-29 00:42:11
2283
3
原创 带自注意力的命名实体识别迁移学习
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
2021-05-28 09:34:23
935
原创 FLAT: Chinese NER Using Flat-Lattice Transformer【ACL2020】
结合TENER和Lattice LSTM的改进工作:改LSTM为Transformer,这样匹配词就可以通过在Transformer的Self-Attention的时候引入,并通过调整position encoding用以计算Attention时作单词对齐 模型架构:单层Transformer,改进Self-Attention部分以适配词信息 1. 每个token表示为emb + pos【begin、end】2. Self-Attention计算,以词w_i和词w_j间Atten..
2021-05-28 00:48:31
564
原创 TENER: Adapting Transformer Encoder for Named Entity Recogni
这篇文章应该是第一篇使用Transformer取得比较好效果的论文,分析了Transformer的特性,同时提出两种改进: 一个是position embedding只体现了距离,但没有方向性,NER中方向性是非常重要的,故而使用相对距离的方法表示 【基于直觉】对于NER任务,可能几个上下文关键词就可以帮助判断,故而应该增强这些关键词的作用,而原始Transformer会有scale过程削弱这些词作用,故而使用un-scaled、sharp的Attention,增强...
2021-05-28 00:37:58
483
原创 Chinese NER Using Lattice LSTM【ACL2018】
1. 提出先验词的网格结构:2. 基于上述网格结构,设计Lattice-LSTM,用于融合先验词信息:在实现细节上,以字粒度LSTM模型未基础,融入单词网格信息:单词如“南京市”,表示为向量,由预训练词向量如Word2Vec表示 并通过一个与LSTM Cell相同的运算,得到单词Cell State,以及一个类似于Input Gate的结果【注意这里使用是词向量,不是字向量】用于跟原本LSTM中的Input Gate去计算权值【word level 没有Output Gate】:
2021-05-28 00:16:46
361
原创 ZSH安装及配置
1. 安装oh-my-zsh sh -c"$(curl -fsSLhttps://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)" 2. 安装语法高亮Plugin git clone https://github.com/zsh-users/zsh-syntax-highlighting.git $ZSH_CUSTOM/plugins/zsh-syntax-highlighting ..
2021-05-28 00:02:59
305
原创 设置pip源为清华源或百度源
创建pip配置文件: ~/.pip/pip.conf修改文件如下: [global] index-url = https://mirror.baidu.com/pypi/simple extra-index-url = https://pypi.tuna.tsinghua.edu.cn/simple trusted-host = mirror.baidu.com pypi.tuna.tsinghua.edu.cn ...
2021-05-27 23:59:19
2037
原创 开发机与Mac互传(sz&rz)
安装Homebrew(brew)brew是Mac OS上的一个包管理工具,可以使用它来安装接下来要使用到的iTerm,wget等工具。 /bin/bash-c"$(curl -fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install.sh)" 若上述命令失效,改用以下命令安装: zsh -c"$(curl -fsSLhttps://gitee.com/cunkai/Homebrew...
2021-05-27 23:52:08
351
原创 python2与python3动态库区别
参考文档:接口指引:https://py3c.readthedocs.io/en/latest/guide-modernization.html扩展和嵌入 Python 解释器:https://docs.python.org/zh-cn/3/extending/index.htmlPython/C API 参考手册:https://docs.python.org/zh-cn/3/c-api/index.html...
2021-05-27 23:43:12
384
原创 git提交代码前的代码检查pre-commit的使用
相关概念Git 能在特定的重要动作发生时触发自定义脚本,称之为钩子,pre-commit是Git的其中一种,由名字可看出,是commit时自动触发的脚本,具体关于Git钩子的概念可查看Git钩子安装与使用安装 pip install pre-commit使用:在要使用pre-commit的仓库下执行:pre-commit install在执行git commit...
2019-10-21 00:15:09
3665
转载 Git原理及学习
目前看到最好的介绍Git原理和相关操作的学习网站http://iissnan.com/progit/html/zh/ch1_0.html
2019-09-30 17:32:51
174
原创 GitHub Fork后代码合并到原仓库
GitHub Fork后代码合并到原仓库本地配置原项目的仓库地址git remote add upstream <原仓库github地址>获取原仓库的更新git fetch upstream合并原仓库的更新代码到本地的master分支上git merge upstream/master通常情况下回产生冲突,部分文件不能自动合并,如下所示,进入git s...
2019-09-30 17:13:33
3715
原创 LSTM的加速算法:QRNN和SRU
LSTM介绍及加速原理LSTM的公式可以表示如下所示,其中分别表示输入门,输出门,遗忘门。对LSTM还不熟悉的同学可以先阅读:理解LSTM网络或者直接阅读Christopher Olah 的原博文:Understanding LSTM Networks从上述公式中,我们先来分析公式中各个部分的计算复杂度,记和的大小为,则大小也是,W的大小为:矩阵乘法【即式中标红部分】:次乘法 表...
2019-09-22 21:15:24
7700
1
原创 神经语言模型相关论文整理
语言模型现已广泛应用于自然语言处理的多个领域,具有广阔的应用前景,尤其是近两年通用语言模型在多个自然语言处理任务的应用中获得了显著的提升,更是让我们看到语言模型的广阔应用场景。基于神经网络的语言模型是当前效果最好,也是当前应用最为广泛的模型之一,在本文将介绍神经网络语言模型中的一些代表性工作。2000年,徐伟等人首次提出使用神经网络训练语言模型,提出一种使用前馈神经网络构建二元语言模型的方法...
2019-09-14 18:59:14
1138
转载 最好的正则表达式学习整理
转自高赞GitHub:https://github.com/ziishaned/learn-regex什么是正则表达式?正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式.“Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp”...
2019-09-14 17:52:34
733
1
原创 层次Softmax相关论文整理
Softmax函数是逻辑函数的一种推广,广泛应用于神经网络的多分类问题中,然而其计算复杂度与类别大小呈线性关系,在应用于语言模型、机器翻译时会带来高额的计算量,故而不少研究尝试寻找其高效的近似方法,层次Softmax便是其中一种常用的方法,本小节中将介绍层次Softmax中的一些代表模型。1992年,Brown等人在论文《Class-based n-gram models of natural...
2019-09-14 17:31:44
5541
原创 论文阅读:Long Short-Term Memory Neural Networks for Chinese Word Segmentation【2015】
意义:首次使用LSTM用于中文分词【之前的方法大多基于局部上下文对标注进行预测,并未能很好使用长距离信息,详情看后续阐述】 调研了多种在LSTM中的dropout的应用 【现在去看感觉这篇文章工作意义不大】Previous Methods前馈神经网络分词:把上下文进行concate后,经由线性分类器标注模型LSTM-1:使用单层LSTM LSTM-2:使用双层LS...
2019-09-09 00:27:35
1060
原创 Flask+uWGSI+Nginx的部署
Flask+uWGSI+Nginx的部署0. 使用该框架部署目的:提高并发访问支持(-p 进程数, –threads 线程数)提高服务运行稳定性1. 安装uwsgi(如果用系统默认的Python环境,pip install uwsgi 安装即可) 如果系统有多个Python版本,且项目需要执行在某个指定Python版本时,按照如下安装下载安装包并解压$...
2018-08-16 19:32:37
775
原创 pytorch 调整某一维度数据顺序
pytorch 调整Tensor某一维度数据的顺序在pytorch中,Tensor是以引用的形式存在的,故而并不能直接像python交换数据那样a = torch.Tensor(3,4)a[0],a[1] = a[1],a[0]# 这会导致a的结果为a=(a[1],a[1],a[2])# 而非预期的(a[1],a[0],a[2])这是因为引用赋值导致的,在交换过程,如下所示...
2018-05-12 16:21:25
15089
3
原创 一图+一句话理解机器学习算法之支持向量回归(Support Vector Regression, SVR)
支持向量回归(SVR)传统回归方法当且仅当回归f(x)完全等于y时才认为预测正确,如线性回归中常用(f(x)−y)2(f(x)−y)2(f(x)-y)^2来计算其损失。而支持向量回归则认为只要f(x)与y偏离程度不要太大,既可以认为预测正确,不用计算损失,具体的,就是设置阈值αα\alpha,只计算|f(x)−y|>α|f(x)−y|>α|f(x)-y|>\alpha的数据点的loss...
2018-04-19 21:44:22
3065
原创 一图+一句话理解机器学习算法之支持向量机(Support Vector Machine, SVM)
支持向量机(SVM)常用的分类算法,思想是找到一条分割曲线,使得类的数据点到该直线最近距离(这个距离也就是常说的间隔)最大化,这些离直线最近的点就被称为支持向量。基于这个想法的目的在于使得这两个类离分类边界最远,若数据有微小的偏移也不会有太大影响。如下图,有“+”,“-”两类的数据点,SVM的目的是希望找到如下中间的直线,使得间隔最大化。 ...
2018-04-19 21:07:35
1451
原创 一图+一句话理解机器学习算法之线性判别分析(Linear Discriminant Analysis, LDA)
线性判别分析(LDA)将数据点进行投影,使得同类数据投影空间尽可能相近,异类数据在投影空间尽可能远,是常用的降维和分类手段,如下图所示:
2018-04-18 11:38:58
613
原创 深入浅出理解模型方差偏差噪声与泛化误差的关系
基本关系泛化误差 = 方差 + 偏差 + 噪声方差:表示在不同数据集上,模型预测输出的波动情况。我们知道如果给定不同的数据,我们模型会得到不一样的预测结果,比如在线性回归问题中,我们要预测y=wx+by=wx+by=wx+b,比如我们有100个数据点{(x1,y1),(x2,y2),…,(x100,y100)}{(x1,y1),(x2,y2),…,(x100,y100)}\{(x_1,y_...
2018-04-13 19:15:36
3179
工作流管理:模型、方法和系统(Workflow Management: Models, Methods, and Systems 中文版)
2017-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人