自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 学习率调整策略———————学习笔记

由于刚开始训练时,模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能会造成模型的不确定性,选择Warmup预热学习率的方式,可以使得开始训练的几个epoch或者一些step内学习率较小,在预热阶段的小学习率下,模型在训练的过程中慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。下面是学习率预热的代码实现,为部分代码。在进行深度学习时,学习率的调整策略是我们躲不开的问题,那么咋样才能设计才能找到比较适合的学习率呢?

2024-09-22 16:31:25 297

原创 中文糖尿病科研文献实体关系数据集DiaKG抽取出实体识别数据集,并随机分割成训练集测试集和验证集

好多的数据集比如ccks2017,ccks2018等数据集只给出了整个的数据集并没有进行分割。而对于DiaKG数据官方给出的既包含实体信息也包含了关系抽取的信息,显得比较冗余,并且分割成立几十个json文件导致我们在使用的时候比较麻烦。这几天刚好想用这个数据集做一下医学实体识别的实验,就对该数据集进行了分割。有什么不足之处,或者实现错误的地方,还请多多指教!上面的代码时进行数据的整理,从原始的数据集中抽取做实体识别的数据集并进行保存。上面的代码时使用sklearn库将数据集分成了训练集,测试集和验证集。

2024-09-21 15:06:46 251

原创 CCKS2020数据集处理

这几天再看关于医学命名实体识别的论文,想着自己尝试去运行一下论文中的代码。但是第一步就是我们对数据记得处理。结合csdn中的一些博主的代码命名实体识别ccks2020数据集的数据预处理之上进行了修改,因为我需要的格式需要对数据集中的每一个句子进行编码。为了方便得到每一个句子的编码表示。我们在预处理时为每一个句字中间都加了一个\n\n用来区分不同的句子。

2024-04-22 12:58:57 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除