自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Transformer 3.x 里没有Seq2SeqModelOutput如何处理

若版本需要稳定在3.X,而代码却需要运行Seq2SeqModelOutput。

2025-12-08 18:01:05 62

原创 ImportError: cannot import name ‘Seq2SeqEncoder‘ from ‘fastNLP.modules‘

也有方法提到将fastNLP升级或降级到0.5.5稳定版本,然而笔者试过还是不行。将fastNLP卸载,重新安装跟transformer适配的版本,即0.7.0。笔者是以上版本好使了。

2025-11-03 00:25:21 158

原创 Spacy安装

这里建议在下载spacy时指定版本号,方便后面下载对应版本的model,比如我当时先下载了3.8.0的model,这里就直接指定了对应的spacy。注意查看模型支持spacy版本,比如下面的3.7.1版本,就只支持>=3.7.2,<3.8.0。有的会需要下载assets中的第二个文件,还是手动下载,找到该文件的目录。进入后,可以下载支持对应spacy版本的Spacy-models;先进入到文件所在目录,然后输入以下命令,依旧按需替换其中的叉。首先,依旧照例创建一个新的环境,进入这个环境,就不多赘述了。

2025-11-03 00:11:43 360

原创 ImportError: cannot import name ‘AdamW‘ from ‘transformers‘

错误通常是由于 transformers 库版本过旧或导入路径变化引起。

2025-11-01 21:04:15 285

原创 BERT训练所得embedding数据存为.pt形式

这是因为我们的user_tweet_embeddings数据是numpy形式,而.pt文件储存的是tensor型。对于获得的user_tweet_embeddings数据我们想将它存为.pt形式,用于后续训练使用。上回我们成功导入了BERT预训练模型,现在要用它来对推文内容进行enbedding了,代码如下。所以需要将数据格式转换一下,再存储,代码如下。发现存成一团乱码,再从文件导入数据也失败。这时就没问题啦,再导入验证数据也都是对的。

2025-03-19 22:25:13 208

原创 调用BERT模型时报错 Numpy is not available

这里要注意的是,我用的vscode的.ipynb,原文件怎么改还是报错,但是新建一个文件,调用原来的库就能用,同样的库在原文件就报错,不知道什么问题,但至少能用。为了确保安装的numpy版本是对的,我直接把原来的numpy也卸载了。注意pip和conda都卸一遍,避免版本错误。然而升级时显示有以上报错,大致是因为安装的numba库的限制。于是尝试升级Numpy至最新版本,发现有以下报错。经过检测,发现是numpy和torch不对应。于是我尝试将numba删掉再升级numpy。

2025-03-19 17:53:00 658

原创 writelines()报错: write() argument must be str, not int

实际上,尽管writelines()可以写入list型,但却需要其中每个元素都是str型,像我上面的代码就是因为第一个元素是int型,才报错的。大家可能有疑惑,不是说writelines()可以写入List型吗,为什么还报write的错,是不是识别错误了。因此,只要在存入之前将List中的每个元素都显式转换为str型即可。在用writelines()逐行写入数据时,发现有报错。

2025-03-19 01:00:22 529

原创 处理twibot-22数据踩过的坑:两个数据集id形式不对应

最后发现users的数据集里,id内容是'u'+账号,也就是说,是个str;而tweet数据集里的author_id内容只有账号,即int,这就导致了二者完全配不上。这里要注意的是users数据我预先处理成了list形式,首行是标签,所以在for循环按行改id的时候,是从第‘1’行开始的,因为第‘0’行是标签。最后提前处理了下users的id数据,把所有的u删去,再转成Int型,终于可以用了。最近在做机器人账号检测的内容,twibot-22数据体量太大,打算先筛出一千个账号建模型。

2025-03-19 00:22:50 574 1

原创 vscode不想每次运行代码都重新加载数据怎么办

最近在尝试做机器人账号检测工作,用到了twibot-22数据这数据实在是太大了!本人又代码小白,写代码经常报错,每次遇到bug运行断掉,然后重新运行又要等好久加载数据。于是一边等数据加载,一边灵光一现,有没有什么办法可以加载一次数据后面不用反复加载了呢。

2025-03-15 22:22:46 336

原创 远程服务器获取预训练BERT模型权重

加载预训练模型时产生报错如下这是因为无法访问外网。该怎么解决呢?

2025-03-15 20:31:53 297

原创 vscode突然连不上远程服务器

vscode连接远程服务器遇到的问题

2025-03-10 15:26:17 238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除