自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 mongo导出数据

小工具

2022-12-08 10:38:08 1083 1

原创 python 正则的一些使用

常用正则

2022-09-20 16:59:31 198

原创 windows下设置sublime text3 python环境

sublime text3 使用

2022-08-17 16:11:11 421

原创 NLP中几点Trick

有时候魔改模型或者各种改损失函数等,都收效甚微,不如从数据出发、从bad case出发。阅读了https://blog.csdn.net/herosunly/category_9393702.html总结一些以后可以用的trick。1、NER任务时BIOE标注可能或比BIO标注更好一点,因为增加了更多的特征。2、在我们使用Bert的时候看数据集是否有些生僻字在bert的词表中没有。3、假设文本提取需要提取的种类很多or数据不平衡,可以用几个不同的模型进行分别提取。4、错别字纠正或者用拼音替换。5

2022-02-21 18:05:33 812

原创 Keras及tf一些操作小记

在使用Keras写模型的时候总是会忘记一些操作,这里做一些小记,方便自己用到的时候查阅。(1)mask的生成及计算loss时的使用mask = Lambda(lambda x: K.cast(K.greater(K.expand_dims(x, 2), 0), 'float32'))(tokens)#通过Lambda层创建mask,就不需要再输入mask了sub_heads_loss = K.binary_crossentropy(gold_sub_heads, pred_sub_heads)

2022-01-07 11:29:14 1325

原创 CasRel的Keras代码学习

论文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction是一个三元组抽取的方法,此方法简单明了,作者源码是Keras写的,值得学习。模型结构如下:下面是主要的模型代码:def E2EModel(bert_config_path, bert_checkpoint_path, LR, num_rels): bert_model = load_trained_model_from_checkpoin

2022-01-07 11:00:51 1582 7

原创 Bert源码注解(三)

这一部分主要说一下run_squad.py,这一部分主要是做阅读理解任务的,数据集可以是SQuAD1.0或者2.0,数据集格式如下:参考:https://www.cnblogs.com/xuehuiping/p/12262700.html在SQuAD2.0版本中,添加了对应问题是否有答案的is_impossible参数,如果为False,则是可以在context中找到的答案,若为True,则会给出plausible_answers,...

2021-04-26 14:44:04 416

原创 Bert源码注解(二)

接上一篇。最主要的Transformer encoder结构代码如下:def transformer_model(input_tensor, attention_mask=None, hidden_size=768, num_hidden_layers=12, num_attention_heads=12,

2021-04-19 09:02:29 207

原创 Bert源码注解(一)

这个是很早之前就应该做的工作,之前看过几遍源码,但是都没有详细的记录下来,Bert源码还是很优雅的,这次看记录下来方便以后回顾。先来看它的整体结构:├── README.md├── create_pretraining_data.py├── extract_features.py├── modeling.py├── modeling_test.py├── multilingual.md├── optimization.py├── optimization_test.py├── predi

2021-04-14 09:58:12 342

原创 文档级关系抽取介绍

**0、数据集介绍**文档级关系抽取的数据集有DocRED、SCIREX、CDR、GDR。GDA是生物医学领域的一个大规模数据集,它包含29192篇文档以供训练,其任务是预测基因和疾病概念之间的二元相互作用。CDR是生物医学领域的人类标注的化学疾病关系抽取数据集,由500份文档组成,该数据集的任务是预测化学和疾病概念之间的二元相互作用关系。SCIREX数据集是发表在ACL2020上的《SCIREX: A Challenge Dataset for Document-Level Informati

2021-04-09 14:07:21 2986

原创 实体关系抽取几篇论文

实体关系抽取几篇论文你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能

2021-04-09 10:06:53 1355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除