- 博客(403)
- 资源 (6)
- 收藏
- 关注
原创 Levenshtein python调用
一般来说,编辑的距离越小,两个字符的相似度越大。不难分析出,两个字符串的编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。Levenshtein距离又称作编辑距离(Edit Distance),是指两个字符之间,由一个字符转变成另一个字符所需的最少编辑操作次数。注: 在导包的时候,是pip install python-Levenshtein, 而不是pip install Levenshtein。替换,将一个字符替换成另一个字符。
2023-08-17 11:01:10 443
原创 各种PLM 参数量大小
目录t5参数量: mt5参数量:参考链接:reference 下载地址:https://huggingface.co/t5-base/tree/main参考链接:reference下载地址:https://huggingface.co/google/mt5-base
2023-08-15 16:19:47 2726 2
原创 如何读取文件夹内的诸多文件,并选择性的保留部分文件
当前有一个二级文件夹,第一层是文件夹名称是“Papers(LNAI14302-14304)",第二级文件夹目录名称如下图蓝色部分所示。第三层为存放的文件,如下下图所示,每一个文件中,均存放三个文件,分别为copyright.pdf, submission.pdf, source.zip.如何python实现,读取三层目录下的文件内容,并且将最里面一层目录中的“submission.pdf"筛选,并保存。python实现读取文件夹内的内容,并筛选部分内容,写入到另外一个文件夹中。
2023-08-15 09:50:00 218
原创 CondaValueError: Malformed version string ‘~‘: invalid character(s).
执行如下命令之后,再执行上面的命令,错误便会解决。
2023-08-15 09:38:07 4954 3
原创 如何解决docker中出现的“bash: vim: command not found”
在docker中,想要执行vim编辑文件,弹出“docker bash: vim: command not found“(如下图),请问该如何解决?再执行vim命令,便不会报错。
2023-08-14 21:37:15 674
原创 shutil.copy()与shutil.copy2()有什么区别?
在复制文件的时候,经常会使用到shutil.copy()函数,今天问ChatGPT老师,给出了shutil.copy2()函数。百度发现,两者还是有一定的区别的。举个例子,如果你需要将一个文件从一个目录复制到另一个目录,同时保留文件的修改时间等元数据,你可以使用。~~以下内容均来自于ChatGPT的回答~~如果你只关心文件的内容,可以使用。都是 Python 标准库。都是 Python 标准库。
2023-08-13 10:42:52 2130 1
原创 如何解决使用Elsivier默认latex模板,显示多位作者名字而不是et.al形式
如何解决使用Elsivier默认latex模板,显示多位作者名字而不是et.al形式
2023-07-28 16:35:46 1267 1
原创 给定英文文本,怎样以单词,标点符号等为分隔单位,以空格分隔开来。
英文是以空格为分隔符进行划分,但是标点符号等其他字符与英文单词之间并没用分隔开来。若想实现英文文本以单词或标点符号等特殊字符为分隔单位,定义一个函数process_sentence(),输入待处理的文本sentence,得到处理之后的sentence'
2023-07-10 21:21:31 294
原创 Linux删除文件夹时,报错“Error: EBUSY:resource busy or locked, unlink……”该如何解决?
Linux删除文件夹时,报错“Error: EBUSY:resource busy or locked, unlink……”该如何解决?
2023-07-01 17:39:28 2342 2
原创 Overleaf表格过长或过短怎样设置合适长度
使用下面的命令 "\scalebox",通过调整0.8数字,可以帮助你将表格调整到合适的宽度,在使用overleaf写论文的时候,经常会出现表格长度不符合自己的预期,不是过短就是过长。
2023-06-05 14:17:10 4136
原创 给定英文text,以及span,判断span是否在text,若在返回start /end index,从1开始计数,如果不在,则返回0,0
【代码】给定英文text,以及span,判断span是否在text,若在返回start /end index,从1开始计数,如果不在,则返回0,0。
2023-04-17 20:28:38 112
原创 linux如何查看当前虚拟环境中使用的所有的包,并快速安装到另一个虚拟环境中
这将会在项目目录下生成一个名为 requirements.txt 的文件,其中包含了项目中需要的所有package名称及其版本号。
2023-04-12 22:12:02 2235
原创 若一个单词被拆分成多少token, word_ids得到的序号是相同的?还是序号累加的?
在使用tokenizer进行编码的时候,经常会存在word被拆分成多个token的情况,不同的参数设置,会得到不同的结果。总的来说,得到的word_ids会有两种,一种是每一个子token是相同的序号;可以看出,tokenizer对text进行了分词处理,但word_ids()的序号是一次累加的,单纯的从word_ids()结果来看,并不能知道哪个单词被拆分了。同一个word的序号是相同的,通过word_ids()序号,就可以定位到被拆分的单词。根据自己的需求,使用不同的方法,下面是两种具体的方法。
2023-04-09 00:37:55 719
原创 在中文zh_core_web_sm-2.3.1和英文en_core_web_sm 中,token_pos 实际上分别各有多少个标签?
对Spacy工具包中的token.pos词性标签进行说明
2023-03-28 13:28:35 457
原创 Spacy中 token.dep_中的58个标签的含义
如果有用逗号隔开的,以第一个逗号为分界线,后面的是new bing给出的解释,前面是ChatGPT给出的解释。如果没有逗号隔开,则表示两种解释没有多大差别。
2023-03-28 13:09:50 611
原创 latex如何在保证不更改.cls的前提下,更改一段文字的对齐方式,如发散对齐,左对齐,右对齐等
latex如何在保证不更改.cls的前提下,更改一段文字的对齐方式,如发散对齐,左对齐,右对齐等
2023-03-14 19:51:28 2738 1
原创 运行报错:“RuntimeError: “host_softmax“ not implemented for ‘Long‘”
RuntimeError: "host_softmax" not implemented for 'Long'
2023-03-13 20:52:12 3331
Fudanchinese_text_classification.rar
2019-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人